`
thrillerzw
  • 浏览: 143797 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论

lucene

 
阅读更多

1、介绍

 

2、demo

   

 

public class Demo {
	//索引
	public static void indexDemo(String indexPath) {
		try {
			// 标准单字分词器
			//	Analyzer analyzer = new StandardAnalyzer(Version.LUCENE_46);
			//中文分词
			Analyzer analyzer = new IKAnalyzer();
			// 准备建立的索引路径
			Directory dir = FSDirectory.open(new File(indexPath));
			// 索引配置
			IndexWriterConfig config = new IndexWriterConfig(Version.LUCENE_46,
					analyzer);
			// 索引器
			IndexWriter iw = new IndexWriter(dir, config);
			// 文档
			Document doc = new Document();   
			// 文档字段 
			IndexableField idField = new StringField("id", "1", Field.Store.YES);
			// StringField 不分词索引,TextField 分词索引
			IndexableField titleField = new StringField("title", "thriller北京的空气",
					Field.Store.YES);
			IndexableField contentField = new TextField("content", "thriller 加油,天天快乐",
					Field.Store.YES);
			// 字段添加到文档
			doc.add(idField);
			doc.add(titleField);
			doc.add(contentField);
			// 建立索引
			iw.addDocument(doc);
			//合并索引,最多3个段
			iw.forceMerge(3);
			iw.commit();
			iw.close();
		} catch (Exception e) {
			e.printStackTrace();
		}
	}
	//查询
	public static void searcherDemo(String indexPath) {
		try {
			// 存放索引目录
			Directory dir = FSDirectory.open(new File(indexPath));
			// 读索引
			IndexReader reader = DirectoryReader.open(dir);
			IndexSearcher is = new IndexSearcher(reader);
			// 最简单查询,从指定字段查词
			// Query query = new TermQuery(new Term("title","t1"));
			Query query = new TermQuery(new Term("id", "1"));
			// 查数字 IntField
//			 Query query = NumericRangeQuery.newIntRange("id", 1, 4, true,
//			 true);
			TopDocs topDocs = is.search(query, 10);
			// 结果总数
			int hits = topDocs.totalHits;
			System.out.println("hits:" + hits);
			ScoreDoc[] scoreDocs = topDocs.scoreDocs;
			for (ScoreDoc sd : scoreDocs) {
				// 文档id
				int docID = sd.doc;
				// 根据id查文档
				Document doc = is.doc(docID);
				// 根据字段获取值
				System.out.println(doc.get("id") + ":" + doc.get("title") + ":"
						+ doc.get("content"));
			}
		} catch (Exception e) {
			e.printStackTrace();
		}
	}
	//删除索引
	public static void deleteIndex(String indexPath) {
		try {
			//中文分词
			//Analyzer analyzer = new IKAnalyzer();
			// 标准单字分词器
			Analyzer analyzer = new StandardAnalyzer(Version.LUCENE_46);
			Directory dir = FSDirectory.open(new File(indexPath));
			IndexWriterConfig config = new IndexWriterConfig(Version.LUCENE_46,
					analyzer);
			IndexWriter iw = new IndexWriter(dir, config);
			iw.deleteAll();
			//iw.deleteDocuments(new Term("content", "快乐"));
			iw.commit();
			iw.close();
		} catch (Exception e) {
			e.printStackTrace();
		}
	}
	/**
	 * 更新数据
	 * 更新结果:1:thriller修改标题:null
	 */
	public static void updateIndex(String indexPath) {
		try {
			Analyzer analyzer = new IKAnalyzer();
			Directory dir = FSDirectory.open(new File(indexPath));
			IndexWriterConfig config = new IndexWriterConfig(Version.LUCENE_46,
					analyzer);
			IndexWriter iw = new IndexWriter(dir, config);
			Document doc = new Document();
			//没有这行,会删除记录,没有更新,why??  
			IndexableField idField = new StringField("id", "1", Field.Store.YES);
			IndexableField titlefield = new TextField("title", "thriller修改标题", Field.Store.YES);
			doc.add(idField);
			doc.add(titlefield);
			iw.updateDocument(new Term("id", "1"), doc);
			iw.commit();
			iw.close();
		} catch (Exception e) {
			e.printStackTrace();
		}
	}
	//高亮
	public static void highlightSearcherDemo(String indexPath){
		try {
			Analyzer analyzer = new IKAnalyzer();
			Directory dir = FSDirectory.open(new File(indexPath));
			IndexReader reader = DirectoryReader.open(dir);
			IndexSearcher is = new IndexSearcher(reader);
			Query query = new TermQuery(new Term("content","快乐"));
			
			String preTag = "<font color = \"red\" >";
			String postTag = "</font>";
			Formatter formatter = new SimpleHTMLFormatter(preTag,postTag);
			Scorer fragmentScorer = new QueryScorer(query);
			Highlighter highlighter = new Highlighter(formatter, fragmentScorer);
			Fragmenter fragmenter = new SimpleFragmenter(30);
			highlighter.setTextFragmenter(fragmenter);
			
			TopDocs topDocs = is.search(query, 10);
			int hits = topDocs.totalHits;
			System.out.println("hits:"+hits);
			ScoreDoc[] scoreDoc = topDocs.scoreDocs;
			for(ScoreDoc sd : scoreDoc){
				int docID = sd.doc;
				Document doc = is.doc(docID);
				String hid = highlighter.getBestFragment(analyzer, "id",doc.get("id"));
				String ht = highlighter.getBestFragment(analyzer, "title",doc.get("title"));
				String hc = highlighter.getBestFragment(analyzer, "content",doc.get("content"));
				if(hid == null){
					hid = doc.get("id");
				}
				if(ht == null){
					ht = doc.get("title");
				}
				if(hc == null){
					hc = doc.get("content");
				}
				System.out.println(hid+":"+ht+":"+hc);
			}
		} catch (Exception e) {
			e.printStackTrace();
		}
	}
}

 

3、Lucene学习——IKAnalyzer中文分词(一): http://blog.csdn.net/cyxlzzs/article/details/7999212

      

4、问题

ik分词:java.lang.IllegalStateException: TokenStream contract violation: reset()/close() call missing, reset() called multiple times, or subclass does not call super.reset(). Please see Javadocs of TokenStream class for more information about the correct consuming workflow.

解决:在循环while (tokenStream.incrementToken()) 之前加入:tokenStream.reset();  

 

分享到:
评论

相关推荐

    lucene,lucene教程,lucene讲解

    lucene,lucene教程,lucene讲解。 为了对文档进行索引,Lucene 提供了五个基础的类 public class IndexWriter org.apache.lucene.index.IndexWriter public abstract class Directory org.apache.lucene.store....

    Lucene时间区间搜索

    Lucene是一款强大的全文搜索引擎库,广泛应用于各种数据检索场景。在C#环境下,利用Lucene进行时间区间搜索是提高数据检索效率和精确度的重要手段。本篇将深入探讨如何在C#中实现Lucene的时间区间查询匹配,以及涉及...

    lucene-4.7.0全套jar包

    【Lucene 4.7.0 全套JAR包详解】 Lucene是一个开源全文搜索引擎库,由Apache软件基金会开发并维护。它提供了一个高级、灵活的文本搜索API,允许开发者轻松地在应用程序中实现复杂的搜索功能。这次提供的“lucene-...

    Lucene3.5源码jar包

    本压缩包包含的是Lucene 3.5.0版本的全部源码,对于想要深入理解Lucene工作原理、进行二次开发或者进行搜索引擎相关研究的开发者来说,是一份非常宝贵的学习资源。 Lucene 3.5.0是Lucene的一个重要版本,它在3.x...

    lucene in action 2nd edition, lucene in action 第二版 PDF

    《Lucene in Action 第二版》是一本深入探讨Apache Lucene全文检索库的专业书籍,它在Java开发领域具有很高的权威性。这本书详细介绍了如何利用Lucene进行高效的文本搜索和索引构建,是Java开发者和信息检索爱好者的...

    Lucene示例 BM25相似度计算

    在IT领域,搜索引擎技术是至关重要的,而Lucene作为一个开源全文搜索引擎库,广泛应用于各种文本检索系统中。本文将深入探讨Lucene示例中的BM25相似度计算,旨在帮助初学者理解如何利用Lucene 4.7.1版本构建索引、...

    Lucene与关系型数据库对比

    《Lucene与关系型数据库对比:深度解析与应用探索》 在信息爆炸的时代,数据管理和检索成为了企业乃至个人日常工作中不可或缺的部分。随着技术的发展,不同的数据处理方式应运而生,其中Lucene与关系型数据库作为两...

    计算机专业外文翻译(lucene相关)

    "计算机专业外文翻译(lucene相关)" 本文翻译了论文"Scale-up x Scale-out: A Case Study using Nutch/Lucene",介绍了计算机专业领域中关于Lucene相关的知识点。 Scale-up vs Scale-out 论文中讨论了两个相对...

    lucene-core-7.2.1-API文档-中文版.zip

    赠送jar包:lucene-core-7.2.1.jar; 赠送原API文档:lucene-core-7.2.1-javadoc.jar; 赠送源代码:lucene-core-7.2.1-sources.jar; 赠送Maven依赖信息文件:lucene-core-7.2.1.pom; 包含翻译后的API文档:lucene...

    lucene.NET 中文分词

    **Lucene.NET 中文分词技术详解** Lucene.NET 是一个高性能、全文检索库,它是Apache Lucene项目在.NET平台上的实现。作为一个开源的搜索引擎框架,Lucene.NET为开发者提供了强大的文本搜索功能。而在处理中文文档...

    lucene-core-7.7.0-API文档-中文版.zip

    赠送jar包:lucene-core-7.7.0.jar; 赠送原API文档:lucene-core-7.7.0-javadoc.jar; 赠送源代码:lucene-core-7.7.0-sources.jar; 赠送Maven依赖信息文件:lucene-core-7.7.0.pom; 包含翻译后的API文档:lucene...

    lucene所有的jar包

    《全面解析Lucene jar包:从基础到应用》 在信息技术高速发展的今天,搜索引擎已经成为我们获取信息不可或缺的工具。在Java领域,Lucene作为一个强大的全文搜索引擎库,深受开发者喜爱。本文将详细介绍“lucene所有...

    Lucene 5 主要jar包

    Apache Lucene是一个开源全文搜索引擎库,它为Java开发者提供了强大的文本搜索功能。在这个"Lucene 5 主要jar包"中,我们找到了一系列与Lucene 5.0.0相关的jar文件,这些文件是构建和运行基于Lucene的搜索应用程序的...

    Lucene的原理完整版pdf

    **Lucene原理详解** Lucene是一个高性能、全文检索库,由Apache软件基金会开发并维护,是Java编程语言中广泛使用的搜索引擎库。它提供了一个简单但功能强大的API,用于索引和搜索文本数据,使得开发者可以轻松地在...

    Lucene中的FST算法描述

    在信息检索和存储系统中,Lucene是一个开源的全文搜索引擎库,广泛应用于各种需要全文搜索功能的软件项目中。为了高效地处理和检索存储的词项(term),Lucene使用了FST(有限状态转换器,Finite State Transducer)...

    基于lucene技术的增量索引

    **基于Lucene技术的增量索引** 在信息技术领域,全文搜索引擎是处理大量数据查询的关键工具。Apache Lucene是一个开源的全文检索库,被广泛应用于构建高效、可扩展的搜索功能。本文将深入探讨如何利用Lucene实现...

    lucene 对 xml建立索引

    ### Lucene对XML文档建立索引的技术解析与实践 #### 一、引言 随着互联网技术的迅猛发展,非结构化数据(如XML文档)在企业和组织中的应用日益广泛。如何高效地处理这些非结构化的数据,特别是进行快速检索成为了一...

    lucene的jar包,欢迎下载

    【标题】"lucene的jar包,欢迎下载"所涉及的知识点主要集中在Lucene这个开源全文搜索引擎库上。Lucene是Apache软件基金会的顶级项目,它是一个高性能、全文本搜索库,提供了完整的搜索功能,包括索引、查询、排序等...

    Lucene的的学习资料及案例

    **Lucene学习指南** Lucene是一个高性能、全文检索库,由Apache软件基金会开发并维护,是Java编程语言中广泛使用的搜索引擎库。它提供了一个简单的API,使得开发者能够方便地在应用中实现全文检索功能。本篇文章将...

Global site tag (gtag.js) - Google Analytics