`
smallearth
  • 浏览: 37507 次
  • 性别: Icon_minigender_1
社区版块
存档分类
最新评论

Lucene小练十三(IK分词器)

 
阅读更多
//				if(hasNew)
//				{
//					writer.deleteAll();
//				}
//纠结一个问题,为啥这行不注释就不能正常运行呢
package Java.se.lucene;

import java.io.File;
import java.io.IOException;

import org.apache.lucene.analysis.Analyzer;
import org.apache.lucene.document.Document;
import org.apache.lucene.document.Field;
import org.apache.lucene.index.CorruptIndexException;
import org.apache.lucene.index.IndexReader;
import org.apache.lucene.index.IndexWriter;
import org.apache.lucene.index.IndexWriterConfig;
import org.apache.lucene.search.IndexSearcher;
import org.apache.lucene.search.Query;
import org.apache.lucene.search.ScoreDoc;
import org.apache.lucene.search.TopDocs;
import org.apache.lucene.store.Directory;
import org.apache.lucene.store.FSDirectory;
import org.apache.lucene.store.LockObtainFailedException;
//import org.apache.lucene.store.RAMDirectory;
import org.apache.lucene.util.Version;

import org.wltea.analyzer.lucene.IKAnalyzer;
import org.wltea.analyzer.lucene.IKQueryParser;
import org.wltea.analyzer.lucene.IKSimilarity;

public class Searcher {
	 //创建IK分词器
	 Analyzer analyzer =new IKAnalyzer();
     private static Directory directory=null;
	 private static String text = "IK Analyzer是一个结合词典分词和文法分词的中文分词开源工具包。" +
	 		"它使用了全新的正向迭代最细粒度切分算法。";
	 	
	 private static IndexReader reader=null;
	 
	 public Searcher()
	 {
		 try {
			directory= FSDirectory.open(new File("f:/lucene/Index06/"));
		} catch (IOException e) {
			e.printStackTrace();
		}
		// directory= new RAMDirectory();
	 }
	 public void index(boolean hasNew)
		{
			IndexWriter writer=null;
			try {
				  writer=new IndexWriter(directory,new IndexWriterConfig(Version
						  .LUCENE_36,analyzer));
//				if(hasNew)
//				{
//					writer.deleteAll();
//				}
				Document doc=null;
				doc=new Document();
				doc.add(new Field("content", text, Field.Store.YES,Field.Index.ANALYZED) );
				writer.addDocument(doc);
			} catch (CorruptIndexException e) {
				e.printStackTrace();
			} catch (LockObtainFailedException e) {
				e.printStackTrace();
			} catch (IOException e) {
				e.printStackTrace();
			}finally
			{
				if(writer!=null)
				{
					try {
						writer.close();
					} catch (CorruptIndexException e) {
						e.printStackTrace();
					} catch (IOException e) {
						e.printStackTrace();
					}
				}
			}
		} 

	 public void search(String query)
	    {
	       try {
	    	   reader=IndexReader.open(directory);
			   IndexSearcher searcher=new IndexSearcher(reader);
			   //在索引中使用IkSimilarity似度评估器
			   searcher.setSimilarity(new IKSimilarity());
			   //使用IKQueryParse查询分析器创建Query对象,搜索域为content
			   Query q=IKQueryParser.parse("content",query);
			   //搜索相关度最高的五条记录
               TopDocs tds=searcher.search(q,10);
			   ScoreDoc[] sd=tds.scoreDocs;
			   System.out.println(tds.totalHits);
			   for(int i=0;i<tds.totalHits;i++){
				   System.out.println("sduyfusfuah");
				   Document document=searcher.doc(sd[i].doc);
				   System.out.println(document.toString());
			    }
			   searcher.close();
		} catch (IOException e) {
			e.printStackTrace();
		}
	  }
	public void check() throws IOException{                       //检查索引是否被正确建立(打印索引) 
	    //Directory directory = FSDirectory.open(new File("f:/lucene/Index06/"));//创建directory,其储存方式为在 
	    IndexReader reader = IndexReader.open(directory); 
	    System.out.println(reader.numDocs()); 
	    for(int i = 0;i<reader.numDocs();i++){ 
	        System.out.println(reader.document(i)); 
	    } 
	    reader.close(); 
     } 
	public static void main(String[] args) throws IOException {
		new Searcher().check();
	}
}
package Java.se.lucene;

import org.junit.Before;
import org.junit.Test;

public class Test_Analyzer{
	private static Searcher ps=null;
	@Before
	public void init()
	{
	     ps=new Searcher();
	}
	@Test
	public void test_index()
	{
		ps.index(true);
	}
	@Test
	public void test_search01()
	{
		ps.search("中文");
		System.out.println("---------------------------");
	}
}
 

分享到:
评论

相关推荐

    高版本Lucene的IK分词器

    maven库中现有的ik分词器只支持低版本的Lucene,想要支持高版本的Lucene,需要重写老版本ik分词器里的部分代码. 下载代码片段后导入项目,在创建分词器的时候把new IKAnalyzer替换为 new IKAnalyzer5x即可。

    lucene+中文IK分词器 例子

    **Lucene+中文IK分词器实例解析** Lucene是一个高性能、全文检索库,由Apache软件基金会开发。它提供了一个简单但功能强大的API,用于在各种应用中实现全文索引和搜索。在处理中文文本时,由于中文词汇的复杂性和无...

    ik分词器7.17.10

    - **下载安装**:从官方源或者第三方仓库下载ik分词器7.17.10的压缩包(ik-7.7.10),解压后将其放置在Elasticsearch的plugins目录下。 - **启动Elasticsearch**:更新Elasticsearch配置文件,启用ik分词器,然后...

    ik分词器tar包 7.10.2

    **IK分词器详解** IK分词器是针对Elasticsearch(ES)的一款热门中文分词插件,其全称为“Intelligent Chinese Analyzer for Elasticsearch”。它由Java编写,旨在为中文文档提供高效、准确的分词处理。版本7.10.2...

    maven 构建好的 IK 分词器,可直接使用

    "Maven 构建好的 IK 分词器,可直接使用" 这个标题告诉我们,这里提供的是一个已经使用 Maven 构建完成的 IK 分词器,专为 Elasticsearch 2.2 版本设计。IK 分词器是针对中文文本进行分词处理的工具,通常用于提高...

    ik分词器jar包.zip

    IK分词器是Java开发的一款高效、灵活的中文分词工具,主要应用于全文检索和自然语言处理领域。在Solr中,IK分词器作为重要的插件被广泛使用,用于对中文文本进行精确且高效的分词,从而提高搜索质量和效率。 标题中...

    es安装ik分词器

    #### 三、测试 IK 分词器 在 Elasticsearch 中创建索引,并指定 IK 分词器作为索引字段的分词方式。示例命令如下: ```json PUT /my_index { "settings": { "analysis": { "analyzer": { "ik_analyzer": { ...

    ik分词器jar包,以及配置文件

    3. **初始化分词器**:在代码中创建IK分词器实例,通常通过`Analyzer`接口的实现类`org.apache.lucene.analysis.cn.ik.IKAnalyzer`来完成。 4. **进行分词**:使用初始化后的分词器对输入的文本进行分词操作,常见...

    solr ik分词器 6.6.1版本

    Solr是中国最流行的全文搜索引擎框架Apache Lucene的一个扩展,它提供了高级的搜索功能,而IK分词器则是Solr在处理中文文本时的关键组件。"solr ik分词器 6.6.1版本"指的是该分词器的一个特定稳定版本,针对的是Solr...

    elasticserach 7.17.4版本的中文 IK分词器

    **Elasticsearch 7.17.4 版本中的中文 IK 分词器** Elasticsearch 是一个流行的、开源的全文搜索引擎,它基于 Lucene 库,并提供了分布式、实时、可扩展的搜索和分析功能。在处理中文文本时,一个合适的分词器是至...

    solr ik分词器

    本教程将详细解释如何在Solr中安装和使用IK分词器。 首先,让我们理解一下什么是分词器。在文本检索和自然语言处理领域,分词是将连续的文本分解成有意义的词语单元(如单词或短语)的过程。对于中文,由于没有明显...

    IK分词器源码

    5. **与Solr的集成**:Solr是Apache Lucene的一个搜索服务器,IK分词器为Solr提供了定制的Analyzer组件,使得Solr能更好地处理中文文本。在`ik-analyzer-solr6-master`目录下,我们可以看到与Solr相关的配置和实现,...

    IK分词器完整资源包 有配置文件和jar包

    Solr是一个基于Apache Lucene的搜索服务器,IK分词器作为Solr的插件,能帮助Solr更好地理解和处理中文文本。在Solr中使用IK分词器,可以提升搜索的准确性和响应速度,使得搜索结果更符合用户的预期。 IK分词器的...

    elasticsearch的ik中文分词器

    1. **下载分词器**: 从官方仓库或第三方源获取适合Elasticsearch版本的IK分词器,如`elasticsearch-analysis-ik-6.3.2.zip`。 2. **解压分词器**: 解压缩下载的文件,将解压后的`plugins`目录下的`analysis-ik`目录...

    ik分词器2012和lucene的资源和jar包以及lucene索引查看工具

    IK分词器与Lucene是Java开发中两个重要的文本处理工具,主要应用于信息检索和自然语言处理领域。这里我们将深入探讨这两个组件以及相关的资源和工具。 1. **IK分词器**: IK分词器(Intelligent Chinese Analyzer ...

    elasticsearch-analysis-ik-6.3.1 ik分词器

    这里的IK分词器是独立于Elasticsearch、Lucene、Solr,可以直接用在java代码中的部分。实际工作中IK分词器一般都是集成到Solr和Elasticsearch搜索引擎里面使用。 IK分词采用Java编写。 IK分词的效果主要取决于词库,...

    适合Lucene5.x的IKAnalyzer-5.0分词器的jar包

    适合Lucene5.x的IKAnalyzer-5.0分词器的jar包,重写了前面版本的IKAnalyzer,我已经试过,可以使用。

    Lucene4.0 IK分词器使用pdf

    ### Lucene4.0 IK分词器使用概览 #### IKAnalyzer:中文分词利器 IKAnalyzer是一款基于Java开发的开源中文分词工具包,自2006年首次发布以来,历经多个版本的迭代,已成为业界广泛认可的中文分词解决方案。其最初...

    IK分词器-Lucene与Solr学习中使用

    IK分词器是Java开发的一款高效、灵活的中文分词工具,特别适用于Lucene和Solr等全文搜索引擎的中文处理。在对文本进行索引和搜索时,分词器的作用至关重要,它能将中文文本拆分成有意义的词汇,以便进行后续的分析和...

Global site tag (gtag.js) - Google Analytics