搜索引擎学习总结(实战和使用场合)
备注以下代码使用的环境为JDK1.5 ,luence 1.4
1. 代码的解析()
使用场合:创建索引的信息,以便于搜索引擎在适当的时候使用。
/**
* 使用递归索引特定的java文件的信息
* @param writer
* @param dir
* @throws Exception
*/
public static void indexDirectory(IndexWriter writer, File dir)
throws Exception {
File[] files = dir.listFiles();
for (File file : files) {
if (file.isDirectory()) {
indexDirectory(writer, file);
} else if (file.getName().endsWith(".java")) {
indexFile(writer, file);
}
}
}
/**
* 设置索引文档的方法
* @param writer
* @param f
* @throws Exception
*/
public static void indexFile(IndexWriter writer, File f) throws Exception {
if (f.isHidden() || !f.exists() || !f.canRead()) {
return;
}
System.out.println("indexing ....." + f.getAbsolutePath());
//虚拟的文档的对象的
Document doc = new Document();
//向文档中添加域对象
doc.add(Field.Text("contents", new FileReader(f)));//索引文件的内容
//创建域对象的
//域中添加域对象的
doc.add(Field.Keyword("filename", f.getCanonicalPath()));
//添加索引的文檔的對象
writer.addDocument(doc);
}
/**
* 创建索引文件的
* @param indexDir 存储索引的目录
* @param dataDir 检索的目录文件家
* @return
* @throws Exception
*/
@SuppressWarnings("deprecation")
public static int index(File indexDir, File dataDir) throws Exception {
if (!dataDir.exists() || !dataDir.isDirectory()) {
throw new IOException(dataDir
+ "does not exists or is not a direcotry");
}
//创建搜索索引的对象IndexWriter
IndexWriter writer =new IndexWriter(indexDir, new StandardAnalyzer(),
true);
//是否使用一个符合文件
writer.setUseCompoundFile(false);
indexDirectory(writer, dataDir);
int numIndexed = writer.docCount();
//优化索引对象
writer.optimize();
//关闭索引对象
writer.close();
return numIndexed;
}
2.代码使用场合:在搜索引擎检索索引目录的中的信息
分享到:
相关推荐
lucene 2.9 API , lucene API,lucene 学习资料,lucene2.9 CHM
"luence客户端测试软件luke" 指的是一个名为"Luke"的工具,它是针对Apache Lucene(一个流行的全文搜索引擎库)的客户端测试和分析工具。Luence可能是“Lucene”的拼写错误,但在这里我们假设指的是Lucene。 **描述...
1. 准备待索引的文档:确保你的文档是可以被 Lucene 处理的文本格式,例如 .txt 文件。如果文档是非文本格式,如 HTML 或 PDF,你需要先将其转换为纯文本。 2. 创建索引:清单 1 展示了一个简单的 Java 示例,演示...
通过"Luence.net搜索小程序",我们可以学习到如何实现实时搜索、高亮显示、盘古分词以及智能匹配等一系列高级搜索功能。 首先,Luence.net是Apache Lucene项目的一个.NET版本,Lucene作为业界知名的全文搜索引擎库...
《Luence和ElasticSearch面试准备》 Lucene和ElasticSearch是两个在全文搜索引擎领域中广泛使用的开源工具。Lucene是一个高性能、全文本搜索库,而Elasticsearch则是在Lucene的基础上构建的一个分布式、RESTful风格...
### 获取全部Luence数据 #### 知识点详解 **Lucene** 是一个高性能、全功能的文本搜索引擎库。在本文档中,我们将探讨如何通过Lucene获取索引中的所有文档,包括创建索引、查询索引以及遍历所有文档的具体步骤。 ...
总结来说,Luence.Net搜索Demo是一个极好的学习资源,它展示了如何利用Luence进行全文搜索,涵盖了从索引构建、查询解析到结果展示的全过程。通过深入研究和实践,开发者可以提升在.NET环境中构建高效搜索引擎的能力...
lucene 原理与分析,底层源码解析,应用场景及实践,相关配置
5. **luence46**: 这个压缩包可能包含了Lucene 4.6版本的源代码,源码提供了深入了解其内部工作原理的机会。你可以通过阅读和分析源代码,学习如何实现自己的搜索功能,或者优化现有系统的搜索性能。 通过对...
**Lucene简介** Lucene是Apache软件基金会的一个开放源代码项目,它是一个高性能、全文本检索库,提供了Java实现的...这种实例有助于开发者快速理解和掌握Lucene的基本用法,为进一步深入学习和应用Lucene打下基础。
**"IKAnalyzer中文分词器V2012_FF使用手册.pdf"** 提供了详细的使用指南,对于初学者来说是非常宝贵的资源。它会解释如何安装IKAnalyzer,如何配置和使用,以及如何解决可能出现的问题。通过阅读这份手册,开发者...
1. 文档(Document):在Lucene中,文档是信息的基本单位,它可以包含多个字段(Field),每个字段都有自己的名称和内容,比如标题、内容等。 2. 字段(Field):字段是文档的组成部分,用于存储不同类型的数据,如...
描述中提到“使用luence索引数据库中的记录”,意味着我们将学习如何将数据库中的数据转化为Lucene可处理的格式,并创建索引。这个过程通常包括以下步骤: 1. **初始化Lucene**: 创建一个`Directory`对象,这是...
**Lucene 基础学习笔记与源码分析** **一、Lucene 概述** Lucene 是一个高性能、全文本搜索库,由 Apache 软件基金会开发并维护。它是一个 Java 开发的开源项目,被广泛应用于各种搜索引擎的构建,支持多种编程...
《Lucene in Action》是一本深入探讨Apache Lucene的权威指南,这本书的中英文PDF版本提供了全面了解和学习这个搜索引擎库的机会。Lucene是Java开发的一款高性能、全文本搜索库,广泛应用于各种需要强大搜索功能的...
包含翻译后的API文档:lucene-core-7.3.1-javadoc-API文档-中文(简体)版.zip; Maven坐标:org.apache.lucene:lucene-core:7.3.1; 标签:apache、lucene、core、中文文档、jar包、java; 使用方法:解压翻译后的API...
3. 文档分析器(Analyzer):结合分词器和过滤器,根据特定语言规则对文档进行分析。 4. 倒排索引(Inverted Index):Lucene的核心数据结构,将每个单词映射到包含该单词的文档列表,便于快速查找。 二、Lucene的...
该步骤中,`IndexSearcher`遍历子读取器(`subReaders`),为每个读取器设置下一个文档的起始位置,并根据`collector`是否接受文档顺序错乱来调用权重对象的`scorer`方法,获取评分器(`Scorer`)。评分器用于实际计算每...
**标题解析:** "Lucene5学习之FunctionQuery功能查询" Lucene5是Apache Lucene的一个版本,这是一个高性能、全文本搜索库,广泛应用于搜索引擎和其他需要高效文本检索的系统。FunctionQuery是Lucene中的一种查询...
总之,“Luence的与盘古分词的使用软件”是将Lucene.NET和盘古分词相结合,利用C# .NET技术在VS2013环境下构建的一款文本处理应用。它实现了对用户输入句子的分词,以及基于分词结果的索引查询,从而在大量文本数据...