最近在突然对全文信息检索有了兴趣,本来嘛,以前是学信息管理的, 对全文信息检索有一定的了解,不过只是停留在理论上的,具体的如何操作没有什么概念,现在有一点空闲时间,来研究研究。
研究全文信息检索的,对于Lucene应该多少有一点的了解吧。当然它自己本身有分词的功能,但主要是在英文环境下面,所以对中文的支持不是好,但是它提供了一个接口,可以让其他的分词包能使用。下面简单的比较一下ikanalyzer和je-analysis这两个中文分词包,主要是它们对中文分词的效果的比较。下面是一段代码
String text = "IK Analyzer是一个结合词典分词和文法分词的中文分词开源工具包。它使用了全新的正向迭代最细粒度切分算法。";
//实例化IKAnalyzer分词器
Analyzer analyzer = new IKAnalyzer();
//以下是对文本进行分词的试验!
String text2 = "ajax是我比较喜欢的技术,我am是ajax";
StringReader sr = new StringReader(text2);
TokenStream ts = analyzer.tokenStream("s", sr);
Token t = ts.next();
int j = 0;
while (t != null) {
System.out.print(t.termText() + " | ");
t = ts.next();
j++;
}
System.out.println("\n");
MMAnalyzer analyzer1 = new MMAnalyzer();
try {
System.out.println(analyzer1.segment(text2, " | "));
} catch (IOException e) {
e.printStackTrace();
}
其结果:
ajax | 是 | 我 | 比较 | 喜欢 | 的 | 技术 | 我 | am | 是 | ajax |
ajax | 是我 | 比较 | 喜欢 | 技术 | am | ajax |
我觉得还是IKAnaylzer得中文分词效果稍微好一点。当然这里只是举一个简单的例子,理由不是很充分,但至少能说明一点问题。中文分词还是蛮有意思的,希望大家能多交流交流。我是抛砖了,希望能吸引个把玉过来!
分享到:
相关推荐
Je-Analysis可以作为Lucene的分词插件,提供对中文文本的预处理服务,使得Lucene能更好地理解和索引中文内容。 使用"je-analysis-1.5.3"和"lucene-core-2.4.1"的组合,开发者可以构建出强大的文本搜索解决方案。在...
《ik-analyzer-8.5.0-jar:Java全文...通过不断优化和更新,ik-analyzer始终保持着对中文分词技术的领先,为各种信息处理任务提供了有力的支持。如果你在Java开发中涉及到中文文本处理,ik-analyzer绝对值得你拥有。
在您提供的资源中,"je-analysis-1.5.1.jar"、"lucene-core-3.5.0.jar" 和 "IKAnalyzer2012.zip" 是三个关键组件,它们在文本分词过程中扮演着重要角色。 首先,"je-analysis-1.5.1.jar" 是一个Java库,很可能是一...
Elasticsearch-analysis-ik 7.10.0 分词器是 Elasticsearch 在中文环境下的得力助手,它结合了 IK 分词器的强大功能和 Elasticsearch 的灵活性,为企业级搜索提供了坚实的基石。通过合理的配置和使用,可以显著提高...
标题中的"IKAnalyzer-5.0.jar"和"solr-analyzer-extra-5.3.jar"是两个在中文搜索引擎系统Solr中常见的组件,主要用于处理中文分词问题。这两个组件在构建高性能的中文搜索解决方案中扮演着至关重要的角色。 首先,...
elasticsearch-analysis-ik 是一个常用的中文分词器,在 Elasticsearch 中广泛应用于中文文本的分析和搜索。下面是 elasticsearch-analysis-ik 分词器的几个主要特点: 中文分词:elasticsearch-analysis-ik 是基于...
几种分词工具都试过,对于中文来说的的话个人觉得IKAnalyzer 最好用,不同版本的IKAnalyzer jar包,包括IKAnalyzer6.5.0、IKAnalyzer5.0、IKAnalyzer2012,IKAnalyzer6.5.0可完美兼容Lucene6+,IKAnalyzer5.0兼容...
ikanalyzer-solr中文分词包是专门为Apache Solr设计的一款强大的中文分词工具,它在处理中文文本时能够有效地进行词语切分,提高搜索准确性和效率。标题中提到的"ikanalyzer-solr中文分词包兼容solr7.5"意味着这个...
IKAnalyzer是一个开源的,基于java语言开发的轻量级的中文分词工具包。 采用了特有的“正向迭代最细粒度切分算法”,具有60万字/秒的高速处理能力。 采用了多子处理器分析模式,支持:英文字母(IP地址、Email、...
Ik Analyzer是一款针对Java平台设计的、专门用于中文分词的开源工具,它在Solr中扮演着至关重要的角色。 标题提到的"ik-analyzer 7.5.0"是Ik Analyzer的一个特定版本,这个版本包含了对Solr的支持,并且提供了类...
ik-analyzer是一款开源的Java语言中文分词器,它最初是基于Lucene项目发展起来的,致力于提高中文文本处理的效率和准确性。7.6.0版本是ik-analyzer的一个重要里程碑,它包含了多项优化和改进,提高了对现代汉语词汇...
IKAnalyzer2012_u6中文分词器jar包 IKAnalyzer2012_u6中文分词器jar包 IKAnalyzer2012_u6中文分词器jar包 IKAnalyzer2012_u6中文分词器jar包 IKAnalyzer2012_u6中文分词器jar包
IKAnalyzer是Java开发的一款广泛应用的中文分词器,它的全称是"Intelligent Chinese Analyzer"。这个开源项目致力于提供一个高效、易用且扩展性良好的中文处理工具,它在分词领域表现出色,广泛应用于搜索引擎、信息...
Ik Analyzer与Solr的结合,可以实现对中文文本的高效分词,进而提升搜索精度和用户体验。"ik-analyzer-solr-master"标签提示了这个版本的ik分词器是专为Solr设计的,确保了与Solr的无缝集成和优化。 **Pocket7ce...
Jeasy Analysis是为了简化中文分词而设计的,它主要由"je-analysis-1.5.3.jar"这个文件组成。这个分词器在Lucene的基础上,针对中文特性进行了优化,提高了分词效率和准确性,尤其适合对易读性和速度有较高要求的...
ik-analyzer-8.3.0 分词插件的集成使得Solr具备了中文处理能力,用户可以在创建索引和进行查询时,利用ik-analyzer进行高效的中文分词,从而提升搜索性能和用户体验。 安装ik-analyzer到Solr的步骤通常包括以下几个...
标题 "ik分词器ik-analyzer-5.3.0和ikanalyzer-solr6.5-2018" 涉及的是两个不同版本的IK分词器,一个是ik-analyzer-5.3.0,适用于Solr 5.5.0,另一个是ikanalyzer-solr6.5-2018,适用于Solr 7.0.0。IK分词器是Java...
首先,"elasticsearch-analysis-ik"是专为Elasticsearch设计的中文分词器,它能够有效地对中文文本进行分词,提高中文搜索的准确性和效率。5.6.8版本是该插件的一个稳定版本,与Elasticsearch 5.6.x系列兼容,确保了...
"elasticsearch-analysis-ik"就是一款专为Elasticsearch设计的中文分词插件,其7.7.1版本是针对Elasticsearch 7.7.1版本优化定制的。 **IK分词器概述** IK全称为“Intelligent Chinese”,即智能中文。它由Java...
总结来说,`elasticsearch-analysis-ik 7.17.16`为Elasticsearch提供了强大的中文分词能力,通过自定义词典、多种分词模式以及性能优化,确保了在处理中文文本时的高效和精准。在实际的文本检索应用中,合理配置和...