lucene核心类详解

gaowenming

浏览: 170415 次
性别:
来自: 北京

最近访客更多访客>>

endual

nick216

mzussle

ah_asgx

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

lucene D语言

建立索引

为了对文档进行索引，Lucene 提供了五个基础的类，他们分别是 Document, Field, IndexWriter, Analyzer, Directory。下面我们分别介绍一下这五个类的用途：

Document

Document 是用来描述文档的，这里的文档可以指一个 HTML 页面，一封电子邮件，或者是一个文本文件。一个 Document 对象由多个 Field 对象组成的。可以把一个 Document 对象想象成数据库中的一个记录，而每个 Field 对象就是记录的一个字段。

Field

Field 对象是用来描述一个文档的某个属性的，比如一封电子邮件的标题和内容可以用两个 Field 对象分别描述。

Analyzer

在一个文档被索引之前，首先需要对文档内容进行分词处理，这部分工作就是由 Analyzer 来做的。Analyzer 类是一个抽象类，它有多个实现。针对不同的语言和应用需要选择适合的 Analyzer。Analyzer 把分词后的内容交给 IndexWriter 来建立索引。

IndexWriter

IndexWriter 是 Lucene 用来创建索引的一个核心的类，他的作用是把一个个的 Document 对象加到索引中来。

Directory

这个类代表了 Lucene 的索引的存储的位置，这是一个抽象类，它目前有两个实现，第一个是 FSDirectory，它表示一个存储在文件系统中的索引的位置。第二个是 RAMDirectory，它表示一个存储在内存当中的索引的位置。

熟悉了建立索引所需要的这些类后，我们就开始对某个目录下面的文本文件建立索引了，清单1给出了对某个目录下的文本文件建立索引的源代码。

实例：

// IK分词器 private Analyzer analyzer = new IKAnalyzer(false); private Document document; private IndexWriter writer; private static File indexFile = new File("d:\\index"); // 分词 TokenStream tokenStream = analyzer.reusableTokenStream("text", new StringReader("中华人民共和国")); TermAttribute term = (TermAttribute) tokenStream .getAttribute(TermAttribute.class); while (tokenStream.incrementToken()) { System.out.println(term.term()); } // 创建索引 /** * * FSDirectory.open(indexFile) 索引文件存放的路径 analyzer 分词器 * true表示创建、false表示在追加 IndexWriter.MaxFieldLength.LIMITED 表示分词的最大值 * 比如说new MaxFieldLength(2)，就表示两个字一分，一般用 * IndexWriter.MaxFieldLength.LIMITED */ writer = new IndexWriter(FSDirectory.open(indexFile), analyzer, false, IndexWriter.MaxFieldLength.LIMITED); document = new Document(); /** * 创建field对象并写入document中 name:field对象名称（content） * value：field对象的值（中华人民共和国） store：是否要存储 index：分词索引 */ document.add(new Field("content", "北京你好", Field.Store.YES, Field.Index.ANALYZED)); document .add(new Field("id", "3", Field.Store.YES, Field.Index.ANALYZED)); writer.addDocument(document); writer.close();

TokenStream 是分词的结果，可以得到当前分词器分词的结果集。

搜索文档

利用Lucene进行搜索就像建立索引一样也是非常方便的。在上面一部分中，我们已经为一个目录下的文本文档建立好了索引，现在我们就要在这个索引上进行搜索以找到包含某个关键词或短语的文档。Lucene提供了几个基础的类来完成这个过程，它们分别是呢IndexSearcher, Term, Query, TermQuery, Hits. 下面我们分别介绍这几个类的功能。

Query

这是一个抽象类，他有多个实现，比如TermQuery, BooleanQuery, PrefixQuery. 这个类的目的是把用户输入的查询字符串封装成Lucene能够识别的Query。

IndexSearcher

IndexSearcher是用来在建立好的索引上进行搜索的。它只能以只读的方式打开一个索引，所以可以有多个IndexSearcher的实例在一个索引上进行操作。

Sort

Sort 使用时通过实例化对象作为参数，通过 Searcher 类的 search 接口来实现。 Sort 支持的排序功能以文档当中的域为单位，通过这种方法，可以实现一个或者多个不同域的多形式的值排序。

实际使用排序对象 Sort 进行排序。主要有两种模式，一种是以字符串表示文档域的名称作为参数指定域排序，一种是直接以排序域的包装域的包装类作为参数进行排序。

TopDocs

搜索的结果集，存放复合条件的document集合。

Highlighter

匹配值的高亮显示，document中和关键词相匹配时，结果显示高亮

/** * query对象由IK提供 * */ Query query = IKQueryParser.parse("content", "北京"); // 索引查询器 IndexSearcher searcher = new IndexSearcher(FSDirectory.open(indexFile)); searcher.setSimilarity(new IKSimilarity()); /** * 搜索结果排序 field:field类型 type:.SortField类型 boolean :false 升序，true：降序 */ Sort sort = new Sort(); sort.setSort(new SortField("id", SortField.INT, false)); TopDocs docs = searcher.search(query, null, 10, sort); System.out.println("匹配对象个数：" + docs.totalHits); ScoreDoc[] s = docs.scoreDocs; Highlighter highlighter = null; SimpleHTMLFormatter simpleHTMLFormatter = new SimpleHTMLFormatter( "<b><font color='red'>", "</font></b>"); highlighter = new Highlighter(simpleHTMLFormatter, new QueryScorer( query)); // 这个100是指定关键字字符串的context的长度 highlighter.setTextFragmenter(new SimpleFragmenter(100)); List<Message> list = new ArrayList<Message>(); for (int i = 0; i < s.length; i++) { Document d = searcher.doc(s[i].doc); System.out.println(d.get("id")); System.out.println(d.get("content")); String content = highlighter.getBestFragment(analyzer, "content", d .get("content")); System.out.println(content); list.add(new Message(d.get("id"), content)); } System.out.println(list.size()); searcher.close(); }