`

lucene入门代码六(使用FastVectorHighlighter高亮)

阅读更多
1.本代码需要的jar包有:
lucene-fast-vector-highlighter-3.0.0.jar
lucene-core-3.0.0.jar
lucene-analyzers-3.0.0.jar


2.为什么要使用FastVectorHighlighter?
Highlighter是流行和广泛使用的Lucene应用,但索引大文件时,Highlighter是相当费时的,如果增加字符数分析与setMaxDocCharsToAnalyze。替代Highlighter,FastVectorHighlighter首次增加在Lucene的2.9版本,并提供更快的性能。超过Highlighte的FastVectorHighlighter的优势不仅是速度但也在功能上。首先,FastVectorHighlighter可以支持字段是记号化ngram断词。Highlighter不能支持的非常好。二,更有趣的是,FastVectorHighlighter可以输出五彩标记凸显出来,FastVectorHighlighter可以支持“per phrase”标记,而不是“per term”的标签。
代码如下:
package com.yale.lucene;

import java.io.FileWriter;

import org.apache.lucene.analysis.Analyzer;
import org.apache.lucene.analysis.standard.StandardAnalyzer;
import org.apache.lucene.document.Document;
import org.apache.lucene.document.Field;
import org.apache.lucene.document.Field.Index;
import org.apache.lucene.document.Field.Store;
import org.apache.lucene.document.Field.TermVector;
import org.apache.lucene.index.IndexWriter;
import org.apache.lucene.index.IndexWriter.MaxFieldLength;
import org.apache.lucene.queryParser.QueryParser;
import org.apache.lucene.search.IndexSearcher;
import org.apache.lucene.search.Query;
import org.apache.lucene.search.ScoreDoc;
import org.apache.lucene.search.TopDocs;
import org.apache.lucene.search.vectorhighlight.BaseFragmentsBuilder;
import org.apache.lucene.search.vectorhighlight.FastVectorHighlighter;
import org.apache.lucene.search.vectorhighlight.FieldQuery;
import org.apache.lucene.search.vectorhighlight.FragListBuilder;
import org.apache.lucene.search.vectorhighlight.FragmentsBuilder;
import org.apache.lucene.search.vectorhighlight.ScoreOrderFragmentsBuilder;
import org.apache.lucene.search.vectorhighlight.SimpleFragListBuilder;
import org.apache.lucene.store.Directory;
import org.apache.lucene.store.RAMDirectory;
import org.apache.lucene.util.Version;
/**
 * 
 * 使用FastVectorHighlighter高亮
 *
 */
public class FastVectorHighlighterSample
{
	static final String[] DOCS = {
			"the quick brown fox jumps over the lazy dog",
			"the quick gold fox jumped over the lazy black dog",
			"the quick fox jumps over the black dog",
			"the red fox jumped over the lazy dark gray dog" };
	static final String QUERY = "quick OR fox OR \"lazy dog\"~1";
	static final String F = "f";
	static Directory dir = new RAMDirectory();
	static Analyzer analyzer = new StandardAnalyzer(Version.LUCENE_30);
	static String FILENAME = "F://新建文件夹//luceneTest//dataSource//highlight.html";

	public static void main(String[] args) throws Exception
	{
		// 创建索引
		makeIndex();
		// 搜索
		searchIndex(FILENAME);
	}

	static void makeIndex() throws Exception
	{
		IndexWriter writer = new IndexWriter(dir, analyzer, true,
				MaxFieldLength.UNLIMITED);
		for (String d : DOCS)
		{
			Document doc = new Document();
			doc.add(new Field(F, d, Store.YES, Index.ANALYZED,
					TermVector.WITH_POSITIONS_OFFSETS));
			writer.addDocument(doc);
		}
		writer.close();

	}

	static void searchIndex(String filename) throws Exception
	{
		QueryParser parser = new QueryParser(Version.LUCENE_30, F, analyzer);
		Query query = parser.parse(QUERY);
		FastVectorHighlighter highlighter = getHighlighter();
		FieldQuery fieldQuery = highlighter.getFieldQuery(query);
		IndexSearcher searcher = new IndexSearcher(dir);
		TopDocs docs = searcher.search(query, 10);
		FileWriter writer = new FileWriter(filename);
		writer.write("<html>");
		writer.write("<body>");
		writer.write("<p>QUERY : " + QUERY + "</p>");
		for (ScoreDoc scoreDoc : docs.scoreDocs)
		{
			String snippet = highlighter.getBestFragment(fieldQuery,
					searcher.getIndexReader(), scoreDoc.doc, F, 100);
			if (snippet != null)
			{
				writer.write(scoreDoc.doc + " : " + snippet + "<br/>");
			}
		}
		writer.write("</body></html>");
		writer.close();
		searcher.close();
		System.out.println("完成");
	}

	static FastVectorHighlighter getHighlighter()
	{
		FragListBuilder fragListBuilder = new SimpleFragListBuilder();
		FragmentsBuilder fragmentsBuilder = new ScoreOrderFragmentsBuilder(
				BaseFragmentsBuilder.COLORED_PRE_TAGS,
				BaseFragmentsBuilder.COLORED_POST_TAGS);
		return new FastVectorHighlighter(true, true, fragListBuilder,
				fragmentsBuilder);
	}

}


效果图如下:

  • 大小: 67.3 KB
分享到:
评论
2 楼 onlyOneToOne 2012-10-26  
JavaDonT 写道
想请教,lucene有没有搜索文件内容查找到指定词并截取其局部内容的方法

您可以去看看他的API 或者 lucene in action
1 楼 JavaDonT 2012-10-25  
想请教,lucene有没有搜索文件内容查找到指定词并截取其局部内容的方法

相关推荐

    Lucene入门与使用

    Lucene入门与使用,非常简单,适合入门

    SSH + Lucene + 分页 + 排序 + 高亮 模拟简单新闻网站搜索引擎--dic

    SSH + Lucene + 分页 + 排序 + 高亮 模拟简单新闻网站搜索引擎--NewsWithSearch.part3 SSH + Lucene + 分页 + 排序 + 高亮 模拟简单新闻网站搜索引擎--NewsWithSearch.part2 SSH + Lucene + 分页 + 排序 + 高亮 ...

    SSH + Lucene + 分页 + 排序 + 高亮 模拟简单新闻网站搜索引擎--news.part2

    SSH + Lucene + 分页 + 排序 + 高亮 模拟简单新闻网站搜索引擎--NewsWithSearch.part3 SSH + Lucene + 分页 + 排序 + 高亮 模拟简单新闻网站搜索引擎--NewsWithSearch.part2 SSH + Lucene + 分页 + 排序 + 高亮 ...

    lucene 多字段查询+文字高亮显示

    在提供的链接博客文章中,作者可能会详细解释如何设置和使用这些功能,包括示例代码和步骤。博客文章通常会以易于理解的方式介绍技术概念,对于初学者来说是很好的学习资源。在阅读完博客后,你可以尝试自己动手实践...

    SSH + Lucene + 分页 + 排序 + 高亮 模拟简单新闻网站搜索引擎--NewsWithSearch.part1

    SSH + Lucene + 分页 + 排序 + 高亮 模拟简单新闻网站搜索引擎--NewsWithSearch.part3 SSH + Lucene + 分页 + 排序 + 高亮 模拟简单新闻网站搜索引擎--NewsWithSearch.part2 SSH + Lucene + 分页 + 排序 + 高亮 ...

    SSH + Lucene + 分页 + 排序 + 高亮 模拟简单新闻网站搜索引擎--NewsWithSearch.part2

    SSH + Lucene + 分页 + 排序 + 高亮 模拟简单新闻网站搜索引擎--NewsWithSearch.part3 SSH + Lucene + 分页 + 排序 + 高亮 模拟简单新闻网站搜索引擎--NewsWithSearch.part2 SSH + Lucene + 分页 + 排序 + 高亮 ...

    SSH + Lucene + 分页 + 排序 + 高亮 模拟简单新闻网站搜索引擎--NewsWithSearch.part3

    SSH + Lucene + 分页 + 排序 + 高亮 模拟简单新闻网站搜索引擎--NewsWithSearch.part3 SSH + Lucene + 分页 + 排序 + 高亮 模拟简单新闻网站搜索引擎--NewsWithSearch.part2 SSH + Lucene + 分页 + 排序 + 高亮 ...

    SSH + Lucene + 分页 + 排序 + 高亮 模拟简单新闻网站搜索引擎--news.part1

    SSH + Lucene + 分页 + 排序 + 高亮 模拟简单新闻网站搜索引擎--NewsWithSearch.part3 SSH + Lucene + 分页 + 排序 + 高亮 模拟简单新闻网站搜索引擎--NewsWithSearch.part2 SSH + Lucene + 分页 + 排序 + 高亮 ...

    经典的lucene实例代码及详细解析以及lucene结构流程介绍

    在上面的代码中,我们使用了Lucene搜索引擎库构建了一个文本搜索应用程序。该应用程序可以搜索TXT文件中的指定内容,并返回搜索结果。 Lucene是一个功能强大且灵活的搜索引擎库,它提供了一个简单易用的API,允许...

    lucene入门代码示例

    最受欢迎的java开源全文搜索引擎开发工具包。 提供了完整的查询引擎和... Lucene的目的是为软件开发人员提供一个简单易用的工具包, 以方便在目标系统中实现全文检索功能, 或者是以此为基础建立起完整的全文检索引擎。

    .NET lucene 源代码

    标题中的".NET Lucene 源代码"表明我们将探讨的是如何在.NET环境下利用Lucene进行搜索引擎的开发,并且会涉及到源代码层面的解析。描述中提到的“简单易用”,揭示了Lucene的核心特性之一,即它对开发者友好,易于...

    lucene 入门

    `lucene入门小实例.txt` 文件中可能包含了一个简单的Lucene使用示例,例如: 1. 创建 `Directory` 对象,比如使用 `FSDirectory.open()` 打开一个文件系统的目录来存储索引。 2. 实例化 `Analyzer`,如使用 `...

    Lucene使用代码实例之搜索文档

    《Lucene使用代码实例之搜索文档》 Lucene是一个高性能、全文检索库,它提供了强大的文本分析和索引功能,广泛应用于搜索引擎开发和其他需要高效文本处理的场景。本篇文章主要面向初学者,通过实例详细解释如何使用...

    Lucene5学习之Highlighte关键字高亮

    《Lucene5学习之Highlighter关键字高亮》 在信息技术领域,搜索引擎的使用已经变得无处不在,而其中的关键技术之一就是如何有效地突出显示搜索结果中的关键字,这就是我们今天要探讨的主题——Lucene5中的...

    lucene入门小例子

    这个“lucene入门小例子”很可能是为了帮助初学者理解并掌握Lucene的基本用法而设计的一系列示例代码。 Lucene的核心概念包括索引、文档、字段和查询。首先,你需要理解索引的概念,它类似于传统数据库中的索引,但...

    SpringBoot+Lucene搜索结果高亮显示Demo

    **SpringBoot+Lucene搜索结果高亮显示** 在现代Web应用程序中,强大的全文搜索引擎功能是不可或缺的,而Apache Lucene正是这样一个高效的、可扩展的开源全文检索库。在这个SpringBoot+Lucene的Demo中,我们将深入...

    lucene部分常用代码

    为了更好地使用Lucene,需要了解其核心API和常用代码。本文将对Lucene部分常用代码进行详细解释,包括多字段搜索、多条件搜索、过滤等。 多字段搜索 在Lucene中,我们可以使用MultifieldQueryParser来指定多个搜索...

Global site tag (gtag.js) - Google Analytics