IKAnalyzer分词器 - - ITeye博客

`

5keit

浏览: 83692 次
性别:

最近访客更多访客>>

yonglongwang

1025037250

longweixuanxuan

bmladmin

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

社区版块

存档分类

最新评论

woodding2008：日志大了，可能做不完
nginx访问日志的切割

IKAnalyzer分词器

博客分类：

API

阅读更多

import java.io.IOException;
import java.io.StringReader;
import java.util.HashMap;
import java.util.Map;

import org.wltea.analyzer.core.IKSegmenter;
import org.wltea.analyzer.core.Lexeme;


public class TestJeAnalyzer {
            private static String testString1 = "中国人是最美丽的，钓鱼岛是中国的地盘";
      
            public static Map<String, String> segMore(String text) {
              Map<String, String> map = new HashMap<>();
              map.put("智能切分", segText(text, true));
              map.put("细粒度切分", segText(text, false));
              return map;
            }
            private static String segText(String text, boolean useSmart) {
              StringBuilder result = new StringBuilder();
              IKSegmenter ik = new IKSegmenter(new StringReader(text), useSmart);       
              try {
                Lexeme word = null;
                while((word=ik.next())!=null) {       
                  result.append(word.getLexemeText()).append(" ");
                }
              } catch (IOException ex) {
                throw new RuntimeException(ex);
              }
              return result.toString();
            } 
            
            
            public static void main(String[] args) throws Exception{
            // String testString = testString1;
            String testString = testString1;
            System.out.println(segMore(testString));
            
         
}

}

对应的JAR包在附件中下载。

IKAnalyzer_all_jar.zip (4.7 MB)
下载次数: 0

分享到：

缓存key的应用 | 区域电商的架构设计

2016-08-09 10:18
浏览 700
评论(0)
分类:编程语言
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

ikanalyzer分词器: ikanalyzer分词器是一款在Java环境下广泛使用的中文分词工具，尤其在搜索引擎和文本分析领域中扮演着重要角色。它的核心是ikanalyzer.jar类库，这个库包含了分词算法和其他必要的支持类，使得开发者能够轻松地集成到...

IKAnalyzer 分词器所需要的停用词词典 ext_stopword.dic 下载: IKAnalyzer 分词器所需要的停用词词典 ext_stopword.dic 下载 Solr中使用IK-Analyzer实现中文分词器的配置详情 : http://blog.csdn.net/hello_world_qwp/article/details/78890904

IKAnalyzer分词器下载IKAnalyzer2012FF_u1.jar: IKAnalyzer分词器版本 2012 兼容Lucene3.3以上版本对solr1.4提供接口实现使用IK分词器，应为该集群使用到的solr版本为4.10.3-cdh5.7.5，所以使用的 IK 包为IKAnalyzer2012FF_u1.jar，如果是3x的solr，使用IK...

IkAnalyzer分词器: **IkAnalyzer分词器详解** IkAnalyzer是一款在Java环境下专门针对中文处理的开源搜索分析器。它主要应用于全文检索领域，旨在提供一个更加符合中文处理的分词器。IkAnalyzer的发展始于Lucene项目，经过多年的迭代和...

IKAnalyzer分词器源码+可直接使用jar包: **IKAnalyzer分词器**是Java开发的一款高性能的中文分词工具，主要应用于搜索引擎和文本分析领域。它的设计目标是提供一个轻量级、高效能的解决方案，支持自定义词典，可以方便地集成到各种系统中。在本资源中，我们...

IKAnalyzer分词器应用于文章匹配算法: 利用IKAnalyzer分词器来做文章的匹配算法。主要思想是先用IKAnalyzer分词器分析2篇文章，然后把2篇文章的关键字进行比较，如果相同的个数在所有关键字的总数大于某个预设的值，就认为2篇文章是相同的。

比较全的IKAnalyzer分词器中文停用词 stopwords.dic: 内容直接拷贝进stopword.dic即可使用（2614行常用停用词包含中英文，符号等）

solr 6.x能够使用的IKAnalyzer分词器: 网上有很多关于IKAnalyzer分词器的jar，但当我们使用solr 6.x进行配置的时候，就发现会各种各样的报错，最常出现的问题就是抽象方法错误，其实就是因为我们使用的IKAnalyzer版本和solr版本不匹配导致系统无法根据...

IK Analyzer 中文分词器下载: IK Analyzer 是一个开源的、基于Java实现的中文分词器，专为全文检索或信息提取等任务设计。它由尹力（Wu Li）在2006年发起，最初是为了改善Lucene的中文处理能力。自那时起，IK Analyzer已经发展成为一个广泛使用的...

lucene 所有jar包包含IKAnalyzer分词器: 本文将深入探讨Lucene的核心组件及其与IKAnalyzer分词器的结合使用。首先，我们来了解一下Lucene的核心组件。`lucene-core-3.6.1.jar`是Lucene的核心库，包含了索引和搜索的主要功能，如文档的添加、删除和更新，...

solr6对应的IKAnalyzer分词器: solr6对应的IKAnalyzer分词器jar包，使用方法： 1. 添加分词器的jar文件：在文件夹`contrib`下新建一个文件夹`rd-lib`，并将`IKAnalyzer2012_u6.jar`拷贝进来，这个文件夹用来存放第三方jar文件，后面做数据导入时候...

基于jsoup实现爬虫和IKAnalyzer分词器: **IKAnalyzer分词器** IKAnalyzer是一个开源的Java语言分词器，主要用于对中文文本进行分词处理。它支持自定义词典，具有较高的分词准确性和效率。在本项目中，IKAnalyzer可能被用于对爬取到的职位信息进行分词，...

Ikanalyzer分词器动态自定义词库的方法.doc: IKAnalyzer是java语言中一个流行的分词器工具，能够对中文文本进行分词操作。分词是自然语言处理（NLP）中的一项基本操作，用于将文本分割成单个词语，以便进行进一步的处理和分析。IKAnalyzer提供了动态自定义词库...

Java IKAnalyzer 中文分词器: IK-Analyzer是一个开源的，基于java语言开发的轻量级的中文分词工具包，也就是可以将一串中文字符分割成一个个的词组或者字词 ...文件中包含分词工具 ikanalyzer-2012_u6.jar 中文分词配置 IKAnalyzer.cfg..xml

solr6.0以上版本可以配置的IKAnalyzer分词器: 通过上述步骤，你可以在Solr6.6.0及更高版本中成功配置和使用IKAnalyzer分词器，提升你的中文搜索体验。记住，分词器的选择和配置对搜索引擎的性能至关重要，因此在实际应用中，可能需要根据具体需求进行调整和优化...

IKanalyzer 分词小测试例子: **IKanalyzer分词器详解** IKAnalyzer是一款开源的、基于Java实现的中文分词工具，主要用于对中文文本进行分词处理。它以其高效、灵活的特性，在许多Java开发的搜索引擎和自然语言处理项目中得到广泛应用。这个"IK...

IKAnalyzer分词器7.x版: IKAnalyzer分词器7.x版，可用于Lucene或Solr的7.x.x版本。

IKAnalyzer中文分词器: IKAnalyzer是一款专为中文处理设计的开源分词器，它主要应用于搜索引擎、信息检索系统、文本挖掘等领域。这款工具能够高效地对中文文本进行分词，使得计算机可以更好地理解和处理中文信息。IKAnalyzer的名字来源于...

Global site tag (gtag.js) - Google Analytics