`
bluepeer
  • 浏览: 75175 次
  • 性别: Icon_minigender_1
  • 来自: 广州
社区版块
存档分类
最新评论

Paoding, Ik, Jeasy, Ictclas4j分词工具

阅读更多

引:http://blog.sina.com.cn/s/blog_52471a510100m7s8.html

1.Paoding

  版本: 2.0.4

  实现类: PaodingAnalyzer

  依赖包: lucene 2.4

  使用方法: 主要通过lucene的接口实现, Analyser#tokenStream方法

  切词效果:传统/意义/意义上/上的/几何/几何学/研究/图形/形的/形状/大/大小/等/性质

  备注: paoding的切词会漏字(食字),上面的结果就食了 ‘在’ 字;

            总会进行最小粒度切分,只要在词库里有的词组,都会出现。如:之前-->前/之前

2.IK

  版本: 3.2.3

  实现类:IKSegmentation

  依赖包:无,可以不依赖于Lucene直接应用

  使用方法:

     IKSegmentation ik = new IKSegmentation(new StringReader(str1), false);// 最少粒度

切分

     Lexeme le = null;

     while ((le = ik.next()) != null) {
                System.out.print(le.getLexemeText() + "/");
      }

  切词效果:

IK(最小粒度):在/传统/意义上/意义/的/几何学/几何/几/是/研究/图形/的/形状/大小/等/性质/


IK(最大粒度):在/传统/意义上/的/几何学/几/是/研究/图形/的/形状/大小/等/性质/

    备注:IK不会食字,

             在构造函数的第二个参数可以设定最小粒度和最大粒度,

             不依赖于Lucene

             但可以看到最大粒度也仍然会有重字的情况,几何学-->几何学/几,分成了两个词。

 

3.Jeasy/je-analysis-1.5.1.jar/ MMAnalyzer

  版本:1.5.1

  实现类:MMAnalyzer

  依赖包:依赖于Lucene2.4~2.9版本的包

  使用方法:

     很简单--> MMAnalyzer mm = new MMAnalyzer(); String result = mm.segment

(str,splitor);

     splitor是切词后各词组的分隔符,这里使用'/'

  切词效果:传统/意义上/几何学/研究/图形/形状/大小/性质/

  备注:

     这个不开源的,不过感觉效果比其它都好,

     会食字,但不会有重字

 

4.Ictclas4j

  版本:0.9.1

  实现类:SegTag

  依赖包:无,不依赖于Lucene

  使用方法:

        SegTag st = new SegTag(1);
        SegResult sr = st.split(str);
        System.out.println(sr.getFinalResult());

  切词效果:在/p 传统/n 意义/n 上/f 的/u 几何学/n 是/a 研究/n 图形/n 的/b 形状/n 大小/a

等/a 性质/n

  备注:

     这个项目是中科院做的,带词性分析的,原来是c++写的,有人改写成java的

     在官网上有几个版本,把项目打包后,还要把项目里的Data文件夹放到应用的项目中才可以用。Data文件夹是保存字典的,一个很大的坏处是:在eclipse里的java文件一定要保存为gbk编码才可以正常运行,utf-8是不能运行的

    不会食字,没有重字

分享到:
评论

相关推荐

    基于Lucene的中文分词器代码paoding,IK,imdict,mmseg4j

    本文将深入探讨基于Lucene的四种中文分词器:Paoding、IK、Imdict和Mmseg4j,它们都是针对Java开发的高效、开源的中文分词工具。 1. Paoding(庖丁)分词器: Paoding是一款高性能的中文分词器,设计目标是提供...

    兼容solr4.10.2的ik-mmseg4j-paoding分词器

    能兼容solr-4.10.2的分词器,大礼包...包括IK分词器,mmseg4j分词器,庖丁分词器.都是经本人测试可用,其中mmseg4j与庖丁都是下载源码,修改重编译并测试生成的.希望大家喜欢.至于与solr的整合方式,网上很多,这里就不介绍了.

    paoding 分词

    总结来说,paoding分词是一个强大的中文分词工具,其高效、灵活的特性使得它在众多分词库中脱颖而出。通过理解其工作原理和熟练使用,开发者可以更好地处理和分析中文文本,为各种应用场景提供强大支持。

    paoding analysis 3.0.1 jar (庖丁解牛分词器)

    因此作者对paoding进行重新编译,使其与最新Lucene 3.0.1版本适用。 Latest paoding 3.0.1 for lucene 3.0.1 使用说明: 先下载2.0.4的版本(h t t p : / /code.google.com/p/paoding/),配置好环境后,引用...

    Lucene建立索引jar包和Paoding分词jar包

    Paoding(庖丁)是一款高性能、易用的中文分词工具,尤其适合大规模文本处理。它的特点包括支持多种分词模式(精确、全模式、简明模式等),内置丰富的词典,以及高效的分词算法。在Lucene中,我们可以通过集成...

    Paoding中文分词

    标题“Paoding中文分词”指的是一个专门用于处理中文文本的分词工具,名为“庖丁解牛中文分词”。在自然语言处理领域,分词是预处理的重要步骤,它将连续的汉字序列切分成有意义的词汇单元,便于后续的文本分析和...

    中文搜索分词lucene包+paoding包

    这就需要引入专门针对中文的分词工具。 Paoding,又名“庖丁”,是专门为Java平台设计的一个高性能、高准确度的中文分词库。它针对中文的特性,如词语的多义性、歧义性以及大量的成语、缩略语等,进行了优化。...

    庖丁分词jar包和dic目录

    综合以上信息,我们可以了解到庖丁分词是一个在Java环境下运行,适用于大规模文本处理的中文分词工具,它与MapReduce相结合,可用于大数据场景下的文本分析。用户可以通过阅读参考手册学习如何使用和配置该工具,...

    paoding中文分词

    Paoding中文分词是一款高效的开源分词工具,主要由Java编写,具备良好的性能和准确性。Paoding的设计目标是提供快速、准确且易用的分词服务,适用于各种应用场景,包括搜索引擎、推荐系统和大数据分析等。它采用了...

    PaoDing.zip_java paoding_java 分词_paoding_中文文本分词_文本 检索

    庖丁(PaoDing)是一款专为Java平台设计的中文文本分词工具,它在中文文本处理领域具有较高的性能和准确性。分词是自然语言处理中的基础步骤,对于中文而言,由于没有明显的空格来区分单词,因此需要通过特定算法将...

    常用中文分词器及地址链接

    4. Paoding Paoding是一种基于 Java 的中文分词器,具有分词、词性标注等功能。Paoding的优点是易于使用、分词准确率高、支持多种语言等。 5. Imdict-chinese-analyzer Imdict-chinese-analyzer是一种基于Java的...

    paoding分词与gate使用

    paoding分词与gate使用,给公司做报告时准备的ppt

    中文分词器Paoding(庖丁)

    很好用的中文分词器,能很好的与搜索引擎框架整合,此jar兼容支持Lucene3.0以上版本。

    paoding-analysis-2.0.4-alpha2.zip_java 分词_paoding

    Java作为广泛应用的编程语言,提供了多种优秀的分词库,其中Paoding Analysis是一款高效、灵活的Java分词工具。本文将深入探讨Paoding Analysis 2.0.4 Alpha2的特性、工作原理以及如何使用。 ### Paoding Analysis...

    lucene中文分词器(paoding解牛)

    总的来说,Paoding分词器是Lucene进行中文信息处理的一个强大工具,它的出现极大地提升了中文文本在搜索引擎中的检索效率和准确性。通过深入理解和熟练运用Paoding,我们可以构建出更加符合中文特性的搜索引擎系统,...

    Java调用paoding分词器对抓取的xml里面的新闻按照出现的词频进行分类

    Paoding分词器是一款高效的中文分词工具,它为Java开发者提供了方便的接口,用于实现对中文文本的智能分析,特别适合于海量文本的分词任务。下面将详细阐述这一过程中的关键知识点。 首先,我们要了解Paoding分词器...

    庖丁解牛 中文分词工具

    "庖丁解牛"中文分词工具是由一名热爱开源的开发者精心打造的,其目的是为了优化和简化中文文本的处理流程,它支持版本号为2.0.4-alpha2,专为满足中文信息处理需求而设计。这款分词工具的核心技术将中文文本中的连续...

    paoding 中文分词

    "Paoding 中文分词"是一款专为处理中文文本而设计的开源分词工具,它在中文信息处理领域具有较高的知名度。"庖丁"是它的别名,来源于中国古代庖丁解牛的故事,寓意其在处理复杂中文文本时,能够如庖丁解牛般游刃有余...

    支持lucene4.0的paoding分词

    支持lucene4.0的paoding分词

    paoding-analysis.jar

    paoding-analysis.jar 庖丁分词器

Global site tag (gtag.js) - Google Analytics