`
Qieqie
  • 浏览: 340945 次
  • 性别: Icon_minigender_1
  • 来自: 北京
文章分类
社区版块
存档分类
最新评论

庖丁分词2.0.4-alpha发布

阅读更多
2.0.4是庖丁分词2.0版本的最后版本号。2.0.4-alpha是它的第一次发布使用号。

2.0.4有别于2.0的其他版本。在代码上有更好、更仔细的设计和注释;使用方式上都有简单的方式:配置好字典路径后,便可以直接new PaodingAnalyzer()使用它了(详细参考发布包中doc下的文档)


2.0.4-alpha发布一个月后,如无重大bug和不完善的部分,经修复小问题后将自动转为beta发布。
后续的如果beta发布后2个月没有发现任何bug和不完善部分,将最终发布2.0.4稳定版。

并锁定该版本不再发布新的2.0版本。


zip 下载地址:http://code.google.com/p/paoding/downloads/list
分享到:
评论
2 楼 shuyanbo 2007-11-19  
给你一个建议, 建议你自己读取JAR包里头的主词典. 不需要使用者再配置词典路径. 使用者需要扩展专用词典,则用另外接口引入.而且词典的默认路径采用相对路径: 当前类的包路径.

好处:

不必从JAR中把词典倒出来, 保证发布的完整性, 大部分试用者不会马上就扩展词典, IMPORT你的Analyzer路径,就可以使用, 不必拷贝了词典,还要该配置文件.

1 楼 imx 2007-09-29  
建议在TokenCollector中增加collect(String word, int begin, int end,String type)方法,当type非空时,可用于生产Token对象,上层应用可以根据Token对象的type得知其所属类别,如:数字、地址、人名等

相关推荐

    paoding-analysis-2.0.4-alpha2.zip_java 分词_paoding

    **Java分词技术详解——以Paoding Analysis 2.0.4 Alpha2为例** 在中文信息处理领域,分词是至关重要的一步,它涉及到搜索引擎、文本挖掘、机器翻译等多个应用场景。Java作为广泛应用的编程语言,提供了多种优秀的...

    NetRobot网络机器人

    本程序使用了Lucene 2.2.0作为全文索引引擎,使用庖丁分词(2.0.4-alpha)中文分词等一些开源包,本程序只实现了最基本的搜索引擎系统,现阶段只作为测试一下系统的性能,更多的功能有待添加。 对本程序有兴趣的...

    庖丁分词jar包和dic目录

    标题中的“庖丁分词jar包和dic目录”指的是一个用于中文分词处理的软件工具,其中包含了必要的jar包和字典文件。庖丁分词是基于Java开发的一个高效、可扩展的中文分词库,它借鉴了Lucene的分词技术,并在此基础上...

    庖丁分词jar包

    庖丁分词是一款高效、灵活且易用的中文分词工具,主要针对Java平台设计。在中文信息处理领域,分词是基础性的工作,它将连续的汉字序列切分成具有语义的词汇,为后续的文本分析、信息检索、情感分析等任务提供支持。...

    庖丁分词.jar

    庖丁分词.jar 庖丁分词.jar 庖丁分词.jar 庖丁分词.jar

    庖丁解牛 中文分词工具

    "庖丁解牛"中文分词工具是由一名热爱开源的开发者精心打造的,其目的是为了优化和简化中文文本的处理流程,它支持版本号为2.0.4-alpha2,专为满足中文信息处理需求而设计。这款分词工具的核心技术将中文文本中的连续...

    lucene中文分词(庖丁解牛)庖丁分词

    《Lucene中文分词——庖丁解牛》 在自然语言处理领域,中文分词是基础且关键的一环。在Java开发中,Apache Lucene是一个强大的全文搜索引擎库,但默认并不支持中文,这就需要借助第三方分词工具。本文将深入探讨...

    庖丁解马--木马查杀深度剖析

    庖丁解马--木马查杀深度剖析,学习此教程后大部分木马可以手动查杀

    Lucene 庖丁解牛分词法2.4版本jar包

    在Lucene中,"庖丁解牛分词法"通过集成第三方分词库实现,如"paoding-analysis-2.0.4-alpha2",这是一个专门为Lucene定制的中文分词组件。这个版本的分词器具有以下特点: 1. **高效性能**:优化了算法,使其在处理...

    庖丁分词归类

    "paoding-analysis-2.0.4-beta"是庖丁分词的一个特定版本,其中"2.0.4"代表该版本的主次版本号,"beta"则表示这是一个测试版,可能包含未解决的问题或功能不完善的地方,开发者通常会发布正式版之前先推出测试版,...

    庖丁分词测试数据集 工具

    庖丁分词是一款在中文自然语言处理领域广泛应用的分词工具,它以其高效、准确的特点深受研究人员和开发者的喜爱。这个测试数据集是为评估和优化庖丁分词的性能而设计的,对于理解分词技术、进行算法比较以及提升模型...

    最新庖丁分词源代码(for lucene3.0)

    庖丁分词是一款知名的中文分词工具,专为Apache Lucene搜索引擎库设计和优化。Lucene是一个开源全文检索库,广泛应用于各种信息检索系统。在本压缩包中,你将找到针对Lucene 3.0版本优化的庖丁分词源代码。 1. **...

    Lucene使用

    庖丁分词 使用 paoding-analysis-2.0.4-beta.zip 版时异常 Exception in thread "main" java.lang.AbstractMethodError: org.apache.lucene.analysis.TokenStream.incrementToken()Z 换用svn里源码版正常 ...

    C#庖丁解牛--asp.net开发

    《C#庖丁解牛——ASP.NET开发》是一本深入探讨C#编程语言与ASP.NET 3.5框架结合使用的专业书籍。通过“庖丁解牛”的比喻,作者旨在引导读者像古代名厨庖丁一样,精准而熟练地掌握ASP.NET 3.5中的控件和组件开发技术...

    庖丁解牛-CI解剖

    ### 庖丁解牛-CI解剖:进程环境深度解析 #### 一、CI概念及其重要性 在软件工程和系统设计领域,“庖丁解牛”比喻深入剖析复杂系统的能力。本文将以此为引子,深入探讨“CI解剖”,这里的CI特指“Cell Individual...

    lucene中文分词器(paoding解牛)

    1. **引入依赖**:在项目中引入Paoding分词器的库文件,例如`paoding-analysis-2.0.4-alpha2`。 2. **创建分词器**:通过Paoding提供的API创建分词器实例,设置相关参数。 3. **读取文本**:读取待分词的中文文本...

    庖丁分词工具

    庖丁中文分词需要一套词典,这些词典需要统一存储在某个目录下,这个目录称为词典安装目录。词典安装目录可以是文件系统的任何目录,它不依赖于应用程序的运行目录。将词典拷贝到词典安装目录的过程称为安装词典。...

    庖丁解牛分词 java包

    "庖丁解牛分词" 是一款针对中文文本处理的分词工具,主要适用于Java环境。这个工具包的名称形象地借用中国古代故事“庖丁解牛”,寓意对文本的精细处理,如同庖丁对牛肉的熟练分解。在Java开发中,分词是自然语言...

    刨丁解羊中文分词器-主要用于对网络蜘蛛或网络爬虫抓取的网页进行分词

    刨丁解羊中文分词器,主要用于对网络蜘蛛或网络爬虫抓取的网页进行分词,支持繁体中文分词、简体中文分词、英文分词,是制作通用搜索引擎和垂直搜索引擎的核心组件。该软件在普通PC机器上测试显示:TXT格式正文分词...

    paoding 分词

    可以从官方网站或者第三方资源站点下载paoding分词的最新版本,例如`paoding-analysis-2.0.4-alpha2.zip`和`Paoding分词.zip`。 3. **解压与配置** 解压缩下载的文件,将解压后的目录添加到你的项目类路径...

Global site tag (gtag.js) - Google Analytics