`

IKAnalyzer分词器

    博客分类:
  • API
阅读更多
import java.io.IOException;
import java.io.StringReader;
import java.util.HashMap;
import java.util.Map;

import org.wltea.analyzer.core.IKSegmenter;
import org.wltea.analyzer.core.Lexeme;


public class TestJeAnalyzer {
            private static String testString1 = "中国人是最美丽的,钓鱼岛是中国的地盘";
      
            public static Map<String, String> segMore(String text) {
              Map<String, String> map = new HashMap<>();
              map.put("智能切分", segText(text, true));
              map.put("细粒度切分", segText(text, false));
              return map;
            }
            private static String segText(String text, boolean useSmart) {
              StringBuilder result = new StringBuilder();
              IKSegmenter ik = new IKSegmenter(new StringReader(text), useSmart);       
              try {
                Lexeme word = null;
                while((word=ik.next())!=null) {       
                  result.append(word.getLexemeText()).append(" ");
                }
              } catch (IOException ex) {
                throw new RuntimeException(ex);
              }
              return result.toString();
            } 
            
            
            public static void main(String[] args) throws Exception{
            // String testString = testString1;
            String testString = testString1;
            System.out.println(segMore(testString));
            
         
}

}

 

 

对应的JAR包在附件中下载。

分享到:
评论

相关推荐

    ikanalyzer分词器

    ikanalyzer分词器是一款在Java环境下广泛使用的中文分词工具,尤其在搜索引擎和文本分析领域中扮演着重要角色。它的核心是ikanalyzer.jar类库,这个库包含了分词算法和其他必要的支持类,使得开发者能够轻松地集成到...

    IKAnalyzer 分词器所需要的停用词词典 ext_stopword.dic 下载

    IKAnalyzer 分词器所需要的停用词词典 ext_stopword.dic 下载 Solr中使用IK-Analyzer实现中文分词器的配置详情 : http://blog.csdn.net/hello_world_qwp/article/details/78890904

    IKAnalyzer分词器 下载IKAnalyzer2012FF_u1.jar

    IKAnalyzer分词器版本 2012 兼容Lucene3.3以上版本 对solr1.4提供接口实现 使用IK分词器,应为该集群使用到的solr版本为4.10.3-cdh5.7.5,所以使用的 IK 包为IKAnalyzer2012FF_u1.jar,如果是3x的solr,使用IK...

    IkAnalyzer分词器

    **IkAnalyzer分词器详解** IkAnalyzer是一款在Java环境下专门针对中文处理的开源搜索分析器。它主要应用于全文检索领域,旨在提供一个更加符合中文处理的分词器。IkAnalyzer的发展始于Lucene项目,经过多年的迭代和...

    IKAnalyzer分词器源码+可直接使用jar包

    **IKAnalyzer分词器**是Java开发的一款高性能的中文分词工具,主要应用于搜索引擎和文本分析领域。它的设计目标是提供一个轻量级、高效能的解决方案,支持自定义词典,可以方便地集成到各种系统中。在本资源中,我们...

    IKAnalyzer分词器应用于文章匹配算法

    利用IKAnalyzer分词器来做文章的匹配算法。主要思想是先用IKAnalyzer分词器分析2篇文章,然后把2篇文章的关键字进行比较,如果相同的个数在所有关键字的总数大于某个预设的值,就认为2篇文章是相同的。

    solr 6.x能够使用的IKAnalyzer分词器

    网上有很多关于IKAnalyzer分词器的jar,但当我们使用solr 6.x进行配置的时候,就发现会各种各样的报错,最常出现的问题就是抽象方法错误,其实就是因为我们使用的IKAnalyzer版本和solr版本不匹配导致系统无法根据...

    比较全的IKAnalyzer分词器中文停用词 stopwords.dic

    内容直接拷贝进stopword.dic即可使用(2614行常用停用词包含中英文,符号等)

    lucene 所有jar包 包含IKAnalyzer分词器

    本文将深入探讨Lucene的核心组件及其与IKAnalyzer分词器的结合使用。 首先,我们来了解一下Lucene的核心组件。`lucene-core-3.6.1.jar`是Lucene的核心库,包含了索引和搜索的主要功能,如文档的添加、删除和更新,...

    solr6对应的IKAnalyzer分词器

    solr6对应的IKAnalyzer分词器jar包,使用方法: 1. 添加分词器的jar文件:在文件夹`contrib`下新建一个文件夹`rd-lib`,并将`IKAnalyzer2012_u6.jar`拷贝进来,这个文件夹用来存放第三方jar文件,后面做数据导入时候...

    基于jsoup实现爬虫和IKAnalyzer分词器

    **IKAnalyzer分词器** IKAnalyzer是一个开源的Java语言分词器,主要用于对中文文本进行分词处理。它支持自定义词典,具有较高的分词准确性和效率。在本项目中,IKAnalyzer可能被用于对爬取到的职位信息进行分词,...

    solr6.0以上版本可以配置的IKAnalyzer分词器

    通过上述步骤,你可以在Solr6.6.0及更高版本中成功配置和使用IKAnalyzer分词器,提升你的中文搜索体验。记住,分词器的选择和配置对搜索引擎的性能至关重要,因此在实际应用中,可能需要根据具体需求进行调整和优化...

    Ikanalyzer分词器动态自定义词库的方法.doc

    IKAnalyzer是java语言中一个流行的分词器工具,能够对中文文本进行分词操作。分词是自然语言处理(NLP)中的一项基本操作,用于将文本分割成单个词语,以便进行进一步的处理和分析。IKAnalyzer提供了动态自定义词库...

    IKanalyzer 分词小测试例子

    **IKanalyzer分词器详解** IKAnalyzer是一款开源的、基于Java实现的中文分词工具,主要用于对中文文本进行分词处理。它以其高效、灵活的特性,在许多Java开发的搜索引擎和自然语言处理项目中得到广泛应用。这个"IK...

    IKAnalyzer分词器7.x版

    IKAnalyzer分词器7.x版,可用于Lucene或Solr的7.x.x版本。

    IKAnalyzer中文分词器

    IKAnalyzer是一款专为中文处理设计的开源分词器,它主要应用于搜索引擎、信息检索系统、文本挖掘等领域。这款工具能够高效地对中文文本进行分词,使得计算机可以更好地理解和处理中文信息。IKAnalyzer的名字来源于...

    IKAnalyzer 中文分词 完整java项目demo

    IKAnalyzer非常易用的java分词工具。可以自定义扩展词汇。 这个是一个完整的java项目demo。直接可以用,不用再去google下载了。添加了几个自定义词汇,测试好用。 运行ika.java里的main方法即可

    IKAnalyzer分词器源码针对lucene6.4.0进行的修改

    由于IKAnalyzer分词器只维护到2012年,仅最高支持lucene4.0,后续高版本中要调用它时,由于各版本源码差异,需对四个类进行修改,本项目中对IKAnalyzer、IKTokenizer、IKQueryExpressionParser、SWMCQueryBuilder...

Global site tag (gtag.js) - Google Analytics