`
Qieqie
  • 浏览: 341130 次
  • 性别: Icon_minigender_1
  • 来自: 北京
文章分类
社区版块
存档分类
最新评论

请您先登录,才能继续操作

庖丁分词2.0.4-alpha发布

阅读更多
2.0.4是庖丁分词2.0版本的最后版本号。2.0.4-alpha是它的第一次发布使用号。

2.0.4有别于2.0的其他版本。在代码上有更好、更仔细的设计和注释;使用方式上都有简单的方式:配置好字典路径后,便可以直接new PaodingAnalyzer()使用它了(详细参考发布包中doc下的文档)


2.0.4-alpha发布一个月后,如无重大bug和不完善的部分,经修复小问题后将自动转为beta发布。
后续的如果beta发布后2个月没有发现任何bug和不完善部分,将最终发布2.0.4稳定版。

并锁定该版本不再发布新的2.0版本。


zip 下载地址:http://code.google.com/p/paoding/downloads/list
分享到:
评论
2 楼 shuyanbo 2007-11-19  
给你一个建议, 建议你自己读取JAR包里头的主词典. 不需要使用者再配置词典路径. 使用者需要扩展专用词典,则用另外接口引入.而且词典的默认路径采用相对路径: 当前类的包路径.

好处:

不必从JAR中把词典倒出来, 保证发布的完整性, 大部分试用者不会马上就扩展词典, IMPORT你的Analyzer路径,就可以使用, 不必拷贝了词典,还要该配置文件.

1 楼 imx 2007-09-29  
建议在TokenCollector中增加collect(String word, int begin, int end,String type)方法,当type非空时,可用于生产Token对象,上层应用可以根据Token对象的type得知其所属类别,如:数字、地址、人名等

相关推荐

    paoding-analysis-2.0.4-alpha2.zip_java 分词_paoding

    **Java分词技术详解——以Paoding Analysis 2.0.4 Alpha2为例** 在中文信息处理领域,分词是至关重要的一步,它涉及到搜索引擎、文本挖掘、机器翻译等多个应用场景。Java作为广泛应用的编程语言,提供了多种优秀的...

    NetRobot网络机器人

    本程序使用了Lucene 2.2.0作为全文索引引擎,使用庖丁分词(2.0.4-alpha)中文分词等一些开源包,本程序只实现了最基本的搜索引擎系统,现阶段只作为测试一下系统的性能,更多的功能有待添加。 对本程序有兴趣的...

    庖丁解牛 中文分词工具

    "庖丁解牛"中文分词工具是由一名热爱开源的开发者精心打造的,其目的是为了优化和简化中文文本的处理流程,它支持版本号为2.0.4-alpha2,专为满足中文信息处理需求而设计。这款分词工具的核心技术将中文文本中的连续...

    Lucene 庖丁解牛分词法2.4版本jar包

    在Lucene中,"庖丁解牛分词法"通过集成第三方分词库实现,如"paoding-analysis-2.0.4-alpha2",这是一个专门为Lucene定制的中文分词组件。这个版本的分词器具有以下特点: 1. **高效性能**:优化了算法,使其在处理...

    lucene中文分词器(paoding解牛)

    Paoding分词器是一款专为Lucene设计的高性能、高精度的中文分词组件,它在2.0.4-alpha2这个版本中,不仅提供了基础的分词功能,还引入了多种优化策略,使得在复杂语境下的分词效果更为精准。Paoding这个名字来源于...

    paoding 分词

    可以从官方网站或者第三方资源站点下载paoding分词的最新版本,例如`paoding-analysis-2.0.4-alpha2.zip`和`Paoding分词.zip`。 3. **解压与配置** 解压缩下载的文件,将解压后的目录添加到你的项目类路径...

Global site tag (gtag.js) - Google Analytics