`
leoyang3033
  • 浏览: 9033 次
最近访客 更多访客>>
社区版块
存档分类
最新评论

强大的lucene中文分词器

    博客分类:
  • J2EE
阅读更多
package com.wellhope.lucene;

import java.io.StringReader;
import org.apache.lucene.analysis.Analyzer;
import org.apache.lucene.analysis.Token;
import org.apache.lucene.analysis.TokenStream;
import org.mira.lucene.analysis.IK_CAnalyzer;

public class ShowResult {
public static void show(Analyzer a, String s) throws Exception {

StringReader reader = new StringReader(s);
TokenStream ts = a.tokenStream(s, reader);


Token t = ts.next();
while (t != null) {
System.out.println(t.termText());
t = ts.next();
}
}

public static void main (String [] args) throws Exception {
Analyzer a = new IK_CAnalyzer();
String key = "中华人民共和国";
show(a, key);
}
}


输出结果:
中华人民共和国
中华人民
中华
华人
人民共和国
人民

共和国
共和
分享到:
评论
10 楼 licco1 2007-08-28  
林哥,问个简单的问题,lucene这个词怎么个发音法?呵呵
9 楼 linliangyi2007 2007-08-27  
新版IKAnalyzer V2.0.2 Lucene中文分词器下载地址 : http://download.csdn.net/source/236243

V 2.0.2 修订 Bata版对二元切分的缺陷

正向全切分分词器:org.mira.lucene.analysis.IK_CAnalyzer(适合建索引时使用)

正向最大全切分分词器:org.mira.lucene.analysis.MIK_CAnalyzer(适合用户输入检索时使用)
8 楼 linliangyi2007 2007-08-16  
感谢各位的建议。新版分词器已经发布,整合了二元分词
下载地址:http://download.csdn.net/source/227957

来自“猎图网 www.richmap.cn”基于IKAnalyzer分词算法的准商业化Lucene中文分词器。

1. 正向全切分算法,42万汉字字符/每秒的处理能力(IBM ThinkPad 酷睿I 1.6G 1G内存 WinXP)

2. 对数量词、地名、路名的优化处理

3. 对未知词汇采用自识别结合二元切分算法,确保搜索召回率
7 楼 duronshi 2007-08-03  
org.apache.lucene.analysis.Analyzer 相关包提示找不到呀
6 楼 imjl 2007-08-03  
森海 写道
还是需要提高的,在中文分词方面还有很多弊端。对于要求不高的用户来说是不错的选择。


同意。
5 楼 森海 2007-08-02  
还是需要提高的,在中文分词方面还有很多弊端。对于要求不高的用户来说是不错的选择。
4 楼 fyting 2007-08-02  
所以一个问题是能否检索到数据,还有一个是如何让结果更准确,只有根据具体应用具体处理了.这里对用户输入的数据也进行分词,对不认识的用WildCard好像也能检索到
3 楼 transist 2007-08-02  
我也觉得对不认识的一段文字干脆一元分词或者二元分词,否则会造成很多记录无法检索出来。
2 楼 yfmine 2007-08-02  
对不认识的直接用二元分词就好办了
1 楼 transist 2007-08-01  
这个分词的确不错,但是仅限于对搜索结果要求不高的互联网,在企业全文检索中,会出现很多无法检索到。
对于企业应用来说,用户一般追求匹配度,IK_CAnalyzer有个大的问题就是对于一连串无法识别的字会当成一个词。如陈官镇下溪村,假如在词库未包含以上任何词,那么用户习惯性输入"陈官",就无法检索。

相关推荐

    Lucene中文分词器组件

    本文将深入探讨Lucene中文分词器组件的相关知识点。 首先,我们要明白中文分词的重要性。由于中文是以词为基本单位,不像英文那样有明显的空格分隔,因此在进行信息检索时,需要先对中文文本进行分词,将连续的汉字...

    Lucene中文分词器包

    来自“猎图网 www.richmap.cn”基于IKAnalyzer分词算法的准商业化Lucene中文分词器。 1. 正向全切分算法,42万汉字字符/每秒的处理能力(IBM ThinkPad 酷睿I 1.6G 1G内存 WinXP) 2. 对数量词、地名、路名的...

    lucene中文分词器(paoding解牛)

    《Lucene中文分词器——Paoding解牛详解》 在中文信息检索领域,分词是至关重要的一环,它能够将连续的汉字序列切割成具有独立意义的词语,为后续的索引和查询提供基础。Lucene作为Java最著名的全文搜索引擎库,其...

    lucene.NET 中文分词

    总的来说,Lucene.NET在中文分词和高亮显示方面的应用需要结合合适的分词器,并进行适当的配置和优化。开发者可以根据实际需求选择适合的分词器,并通过集成和调优提高系统的搜索效率和用户体验。

    lucene3.0 分词器

    lucene3.0 中文分词器, 庖丁解牛

    lucene中文分词工具包

    总之,“lucene中文分词工具包”通过IKAnalyzer提供的高效分词服务,为中文信息检索、文本挖掘、情感分析等应用提供了强大的支持。理解并掌握其工作原理和使用方法,对于提升中文文本处理的质量至关重要。

    lucene3庖丁解牛中文分词器

    《深入剖析:Lucene3与庖丁解牛中文分词器》 在信息技术飞速发展的今天,全文检索和搜索引擎已经成为日常开发中不可或缺的部分。Lucene作为一款强大的全文检索库,被广泛应用于各种信息检索系统中。然而,对于中文...

    Lucene4.0 IK分词器使用pdf

    ### Lucene4.0 IK分词器使用概览 #### IKAnalyzer:中文分词利器 IKAnalyzer是一款基于Java开发的开源中文分词工具包,自2006年首次发布以来,历经多个版本的迭代,已成为业界广泛认可的中文分词解决方案。其最初...

    lucene.net中文分词器

    《Lucene.NET中文分词器:深入解析与实践》 Lucene.NET是一个开源全文检索库,它是Apache Lucene项目在.NET平台上的实现。作为一个强大的信息检索工具,Lucene.NET广泛应用于搜索引擎开发、文档检索系统等领域。...

    lucene中文分词

    《Lucene中文分词技术详解》 在信息检索和自然语言处理领域,中文分词是至关重要的一步。Lucene,作为一个强大的全文搜索引擎库,对于处理中文文档,分词的准确性和效率直接影响到搜索效果。本文将围绕“lucene中文...

    lucene 中文分词 庖丁解牛

    《Lucene中文分词:庖丁解牛》 在信息技术高速发展的今天,全文搜索引擎已经成为网站内容检索不可或缺的一部分。其中,Apache Lucene作为一个开源的全文检索库,被广泛应用于各种项目中,尤其对于处理中文文本,...

    Lucene-Demo.rar Lucene分词的demo

    分词器的配置是灵活的,可以根据需求选择不同的分词策略,比如标准分词器(StandardAnalyzer)适用于大多数英文文本,而中文分词可能需要使用IKAnalyzer或SmartChineseAnalyzer等针对中文特性的分词器。 在运行这个...

    lucene分词测试代码

    用java写的图形分词测试的小东西,用的分词器是: 来自“猎图网 www.richmap.cn”基于IKAnalyzer分词算法的准商业化Lucene中文分词器,其使用“正向全切分算法”,42万汉字字符/每秒的处理能力(IBM ThinkPad 酷睿I...

    lucene中文分词(庖丁解牛)庖丁分词

    《Lucene中文分词——庖丁解牛》 在自然语言处理领域,中文分词是基础且关键的一环。在Java开发中,Apache Lucene是一个强大的全文搜索引擎库,但默认并不支持中文,这就需要借助第三方分词工具。本文将深入探讨...

    Lucene中文分词组件 JE-Analysis 1.5.1

    //采用正向最大匹配的中文分词算法,相当于分词粒度等于0 MMAnalyzer analyzer = new MMAnalyzer(); //参数为分词粒度:当字数等于或超过该参数,且能成词,该词就被切分出来 MMAnalyzer analyzer = new ...

    lucene6.6+拼音分词+ik中文分词包

    然而,对于中文文本,Lucene默认的分词器并不理想,因此我们需要引入专门针对中文的分词工具。 IK Analyzer(IK中文分词器)是为了解决这个问题而诞生的。它是开源的Java实现的中文分词组件,特别适合用于Java开发...

    lucene中文分词jar包

    关于lucene中文分词的一个辅助jar包

    Lucene3.0分词系统.doc

    Lucene3.0分词系统的核心在于理解和应用其分词原理,无论是对于英文还是中文文本,这一过程都是构建高效搜索引擎的基础。以下是对Lucene3.0分词系统中涉及的关键知识点的深入解析。 ### 英文分词原理 英文分词相较...

    lucene+中文IK分词器 例子

    **Lucene+中文IK分词器实例解析** Lucene是一个高性能、全文检索库,由Apache软件基金会开发。它提供了一个简单但功能强大的API,用于在各种应用中实现全文索引和搜索。在处理中文文本时,由于中文词汇的复杂性和无...

    lucene中文分词源码,做搜索引擎需要用到的好东西哦

    这些分词器能够识别出词语的边界,对连续的汉字序列进行切割,生成合理的词汇。 接着,Analyzer会通过TokenStream来处理Token流。TokenStream接口定义了对Token进行读取和修改的操作,它允许我们在分词过程中进行...

Global site tag (gtag.js) - Google Analytics