`
hui_jing_880210
  • 浏览: 43405 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论

Solr java IKAnalyzer词库

    博客分类:
  • solr
阅读更多

首先需要引入一下两个包:

IKAnalyzer2012FF_u1.jar

lucene-core-4.3.1.jar

如果想和服务器上的停词库同步可以把stopword.dic拷贝进来。

别的什么都不需要进行配置,代码如下

/**
 * IK分词器两种写法
 * @author zhouguohui
 *
 */
public class test {
    public static void main( String[] args ){
    	test1();
    	test2();
    }
    
    /**
     * 使用IK实现
     */
    public static void test1(){
    	try {
			String text="基于IK分词器的两种不同写法的分词工具,这是第一种";  
	        //创建分词对象  
	        Analyzer anal=new IKAnalyzer(true);  
	        StringReader reader=new StringReader(text);
	        //分词  
			TokenStream ts = anal.tokenStream("", reader);
			CharTermAttribute term=ts.getAttribute(CharTermAttribute.class);  
			 //遍历分词数据  
	        while(ts.incrementToken()){  
	            System.out.print(term.toString()+"|");  
	        }  
	        reader.close();  
	        System.out.println();
			
		} catch (IOException e) {
			e.printStackTrace();
		}  
    }
    
    /**
     * 使用lucene实现
     */
    public static void test2(){
    	try{
	       String text="基于IK分词器的两种不同写法的分词工具,这是第二种";  
	        StringReader sr=new StringReader(text);  
            IKSegmenter ik=new IKSegmenter(sr, true);  
	        Lexeme lex=null;  
	        while((lex=ik.next())!=null){  
	           System.out.print(lex.getLexemeText()+"|");  
	       }  
	    } catch (IOException e) {
			e.printStackTrace();
		} 
    }
}

  运行结果为:

基于|ik|分词器|的|两种|不同|写法|的|分词|工具|这是|第一种|
基于|ik|分词器|的|两种|不同|写法|的|分词|工具|这是|第二种|
分享到:
评论

相关推荐

    ikanalyzer-solr.zip

    ikanalyzer是一款优秀的开源中文分词库,由北京大学信息科学技术学院开发。它基于Java实现,遵循Apache软件基金会的License,可以方便地与Java相关的项目集成,包括Solr。ikanalyzer的核心功能是对中文文本进行细分...

    solr配置ikanalyzer分词文件以使用说明

    ikanalyzer是一款专门为Java语言设计的开源中文分词库,它基于Apache Lucene项目,针对中文进行了优化,能够有效地进行中文分词、词性标注等任务。在Solr中,ikanalyzer作为分词器插件,帮助处理中文文档,提高搜索...

    ikanalyzer-solr5

    ikanalyzer 是一个基于 Java 实现的开源中文分词库,它主要针对中文文档进行高效的分词处理,适用于搜索引擎、信息检索系统等应用场景。 Solr 是一款流行的开源全文搜索服务器,由 Apache 软件基金会开发。它提供了...

    ikanalyzer-solr

    在Solr中集成IK Analyzer,首先需要下载ikanalyzer-solr的压缩包,其中包含了IK Analyzer的jar包以及相应的配置文件。在Solr的`lib`目录下添加ikanalyzer的jar文件,确保Solr启动时能加载到该分词器。同时,还需要在...

    IKAnalyzer 支持高版本最新Lucene 5.x、6.x、7.x

    IKAnalyzer 是一个开源的、基于Java实现的中文分词器,专为全文检索和搜索引擎提供高效、快速的分词服务。这款工具广泛应用于Lucene、Elasticsearch、Solr等全文检索框架,以提高中文处理的性能。在给定的标题和描述...

    分词器 ikanalyzer-solr6.5

    ikanalyzer是一个开源的、基于Java实现的中文分词库,主要用于解决中文文本处理中的分词问题,对于搜索引擎和信息检索系统尤其重要。在Solr中,分词器是构建高效、精准全文检索的关键组件。 首先,ikanalyzer-solr...

    IK Analyzer 2012FF_hf1.7z

    IK Analyzer 是一个开源的、基于Java实现的中文分词器,专为中文信息处理而设计。这个工具在处理中文文本时表现出色,尤其在Solr这样的搜索引擎中,它作为一个插件,提供了对中文词汇切分的强大支持。"2012FF_hf1.7z...

    基于ik动态词库分词实现--无需重启服务

    可以使用`org.apache.lucene.analysis.cn.ik.IKAnalyzer`类,并设置`useSmart`参数以选择智能分词模式或全模式。 2. **创建词库文件**:词库一般包含常用词汇、专有名词等,应以特定格式(如txt)存储。每个词一行...

    ikanalyzer-solr5.zip

    首先,ikanalyzer是基于Java实现的开源中文分词库,由北京大学信息科学技术学院发起,旨在提供高效、灵活的中文分词解决方案。中文分词是自然语言处理的基础步骤,对于理解和分析中文文本至关重要。ikanalyzer通过...

    solr 中文分词其IKAnalyzer 支持solr版本5.X-7.X

    IKAnalyzer是专门为Java设计的中文分词器,它在处理中文文本时表现优秀,尤其适合于信息检索、数据挖掘等场景。在Solr中,IKAnalyzer扮演了核心角色,帮助我们对输入的中文文本进行精准的分词,从而提高搜索的准确性...

    ikanalyzer5.5-solr6.5.zip

    IKAnalyzer是一个在Java平台上广泛使用的开源中文分词库,其目标是为Java开发人员提供简单、高效的中文处理工具。在Solr中,中文分词器扮演着至关重要的角色,因为搜索引擎需要将用户输入的中文查询进行分词处理,...

    IKAnalyzer2012FF_u1.jar下载

    IKAnalyzer2012FF_u1.jar 是一款广泛应用于Java环境中的中文分词库,尤其在搜索引擎和文本分析领域有着重要的应用。这个jar包包含了IK Analyzer的最新版本,即2012FF_u1更新版,它是一款开源的、高性能的中文分词...

    IKAnalyzer2012FF_u1 ik solr分词器

    IKAnalyzer2012FF_u1是一款针对中文分词的开源工具,主要应用于搜索引擎和文本分析领域,尤其在Solr中被广泛使用。这个版本是IK Analyzer的2012最终版更新1(Final Full Update 1),它提供了一种高效、灵活的中文...

    ikanalyzer-solr7.2.1.zip

    本资源"ikanalyzer-solr7.2.1.zip"正是针对Solr 7.2.1版本的IK Analyzer配置包,旨在帮助用户实现IK Analyzer与Solr的无缝对接,以便更好地处理中文语句的分词工作。 首先,我们需要理解Solr的核心功能。Solr是...

    IKanalyzer2012.rar

    IKanalyzer2012是一款基于Java语言的开源中文分词器,主要用于处理中文文本的分词任务。在中文搜索引擎和自然语言处理领域,分词是基础且关键的一环,因为中文没有明显的空格来区分词汇,需要通过特定的算法进行切分...

    IK Analyzer 2012FF_hf1

    此外,IK Analyzer还支持动态加载词典,允许用户根据实际需求添加或更新词库,增强了灵活性。 **在Windows或Linux下的集成** 表明IK Analyzer具有良好的平台兼容性,无论是开发环境还是生产环境,都可以轻松地将它...

    IKAnalyzer包

    IKAnalyzer是一款广泛应用于Java环境中的开源中文分词器,它主要设计用于搜索引擎和文本分析领域。这个包,名为"IKAnalyzer2012_u6",是IK Analyzer的一个特定版本,发布于2012年,并且是针对第六次更新(Update6)...

    solr4.X所用IKAnalyzer中文分词器jar包

    IKAnalyzer就是这样一款针对中文的开源分词工具,它是基于Java开发的,广泛应用于Solr和Elasticsearch等搜索系统中。 IKAnalyzer是由尹建伟等人开发的,它的全称为"Intelligent Chinese Analyzer for Java",旨在...

    ik-analyzer-8.5.0-jar

    2. 创建Analyzer对象,通常使用`org.wltea.analyzer.lucene.IKAnalyzer`作为入口。 3. 使用Analyzer对象的`tokenStream`方法获取TokenStream,这是Lucene的抽象概念,代表分词流。 4. 遍历TokenStream,获取分词结果...

Global site tag (gtag.js) - Google Analytics