庖丁分词2.0.4-alpha发布 - Qieqie - ITeye博客

`

Qieqie

浏览: 341941 次
性别:
来自: 北京

最近访客更多访客>>

OSSEZTEC

ssy1725

overflow_exception

Kanepan

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

全部博客 (54)

社区版块

存档分类

最新评论

奶油花生：那如果我左侧菜单栏也是动态的呢，比如要读一个树形取出来的数据。 ...
使用Velocity吧2：Velocity的layout功能
fantaxy025025：世隔近5年，我才看到了这么精彩的讨论。所谓，思想和眼光，相辅相 ...
是谁调用了它的静态方法？
forrest_lv：看了这个后，以此时刻提醒自己
说说我对编程的看法
bihujrj：您好，我想在paoding上做一点改进。不知paoding有没 ...
Paoding Rest 0.2 Released
fantaxy025025：这个版主也不回答问题。。。呜呜
使用庖丁分词(2.0.4-alpha)

庖丁分词2.0.4-alpha发布

阅读更多

2.0.4是庖丁分词2.0版本的最后版本号。2.0.4-alpha是它的第一次发布使用号。

2.0.4有别于2.0的其他版本。在代码上有更好、更仔细的设计和注释；使用方式上都有简单的方式：配置好字典路径后，便可以直接new PaodingAnalyzer()使用它了(详细参考发布包中doc下的文档)

2.0.4-alpha发布一个月后，如无重大bug和不完善的部分，经修复小问题后将自动转为beta发布。
后续的如果beta发布后2个月没有发现任何bug和不完善部分，将最终发布2.0.4稳定版。

并锁定该版本不再发布新的2.0版本。

zip 下载地址：http://code.google.com/p/paoding/downloads/list

分享到：

使用庖丁分词(2.0.4-alpha) | MySQL技术交流邀请函

2007-09-25 15:45
浏览 4220
评论(2)
查看更多

评论

2 楼 shuyanbo 2007-11-19

给你一个建议, 建议你自己读取JAR包里头的主词典. 不需要使用者再配置词典路径. 使用者需要扩展专用词典,则用另外接口引入.而且词典的默认路径采用相对路径: 当前类的包路径.

好处:

不必从JAR中把词典倒出来, 保证发布的完整性, 大部分试用者不会马上就扩展词典, IMPORT你的Analyzer路径,就可以使用, 不必拷贝了词典,还要该配置文件.

1 楼 imx 2007-09-29

建议在TokenCollector中增加collect(String word, int begin, int end，String type)方法，当type非空时，可用于生产Token对象，上层应用可以根据Token对象的type得知其所属类别，如：数字、地址、人名等

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

paoding-analysis-2.0.4-alpha2.zip_java 分词_paoding: **Java分词技术详解——以Paoding Analysis 2.0.4 Alpha2为例** 在中文信息处理领域，分词是至关重要的一步，它涉及到搜索引擎、文本挖掘、机器翻译等多个应用场景。Java作为广泛应用的编程语言，提供了多种优秀的...

NetRobot网络机器人: 本程序使用了Lucene 2.2.0作为全文索引引擎，使用庖丁分词(2.0.4-alpha)中文分词等一些开源包，本程序只实现了最基本的搜索引擎系统，现阶段只作为测试一下系统的性能，更多的功能有待添加。对本程序有兴趣的...

庖丁分词jar包和dic目录: 标题中的“庖丁分词jar包和dic目录”指的是一个用于中文分词处理的软件工具，其中包含了必要的jar包和字典文件。庖丁分词是基于Java开发的一个高效、可扩展的中文分词库，它借鉴了Lucene的分词技术，并在此基础上...

庖丁分词jar包: 庖丁分词是一款高效、灵活且易用的中文分词工具，主要针对Java平台设计。在中文信息处理领域，分词是基础性的工作，它将连续的汉字序列切分成具有语义的词汇，为后续的文本分析、信息检索、情感分析等任务提供支持。...

庖丁分词.jar: 庖丁分词.jar 庖丁分词.jar 庖丁分词.jar 庖丁分词.jar

庖丁解牛中文分词工具: "庖丁解牛"中文分词工具是由一名热爱开源的开发者精心打造的，其目的是为了优化和简化中文文本的处理流程，它支持版本号为2.0.4-alpha2，专为满足中文信息处理需求而设计。这款分词工具的核心技术将中文文本中的连续...

lucene中文分词（庖丁解牛）庖丁分词: 《Lucene中文分词——庖丁解牛》在自然语言处理领域，中文分词是基础且关键的一环。在Java开发中，Apache Lucene是一个强大的全文搜索引擎库，但默认并不支持中文，这就需要借助第三方分词工具。本文将深入探讨...

庖丁解马--木马查杀深度剖析: 庖丁解马--木马查杀深度剖析，学习此教程后大部分木马可以手动查杀

Lucene 庖丁解牛分词法2.4版本jar包: 在Lucene中，"庖丁解牛分词法"通过集成第三方分词库实现，如"paoding-analysis-2.0.4-alpha2"，这是一个专门为Lucene定制的中文分词组件。这个版本的分词器具有以下特点： 1. **高效性能**：优化了算法，使其在处理...

庖丁分词归类: "paoding-analysis-2.0.4-beta"是庖丁分词的一个特定版本，其中"2.0.4"代表该版本的主次版本号，"beta"则表示这是一个测试版，可能包含未解决的问题或功能不完善的地方，开发者通常会发布正式版之前先推出测试版，...

庖丁分词测试数据集工具: 庖丁分词是一款在中文自然语言处理领域广泛应用的分词工具，它以其高效、准确的特点深受研究人员和开发者的喜爱。这个测试数据集是为评估和优化庖丁分词的性能而设计的，对于理解分词技术、进行算法比较以及提升模型...

最新庖丁分词源代码（for lucene3.0）: 庖丁分词是一款知名的中文分词工具，专为Apache Lucene搜索引擎库设计和优化。Lucene是一个开源全文检索库，广泛应用于各种信息检索系统。在本压缩包中，你将找到针对Lucene 3.0版本优化的庖丁分词源代码。 1. **...

Lucene使用: 庖丁分词使用 paoding-analysis-2.0.4-beta.zip 版时异常 Exception in thread "main" java.lang.AbstractMethodError: org.apache.lucene.analysis.TokenStream.incrementToken()Z 换用svn里源码版正常 ...

C#庖丁解牛--asp.net开发: 《C#庖丁解牛——ASP.NET开发》是一本深入探讨C#编程语言与ASP.NET 3.5框架结合使用的专业书籍。通过“庖丁解牛”的比喻，作者旨在引导读者像古代名厨庖丁一样，精准而熟练地掌握ASP.NET 3.5中的控件和组件开发技术...

庖丁解牛-CI解剖: ### 庖丁解牛-CI解剖：进程环境深度解析 #### 一、CI概念及其重要性在软件工程和系统设计领域，“庖丁解牛”比喻深入剖析复杂系统的能力。本文将以此为引子，深入探讨“CI解剖”，这里的CI特指“Cell Individual...

lucene中文分词器（paoding解牛）: 1. **引入依赖**：在项目中引入Paoding分词器的库文件，例如`paoding-analysis-2.0.4-alpha2`。 2. **创建分词器**：通过Paoding提供的API创建分词器实例，设置相关参数。 3. **读取文本**：读取待分词的中文文本...

庖丁分词工具: 庖丁中文分词需要一套词典，这些词典需要统一存储在某个目录下，这个目录称为词典安装目录。词典安装目录可以是文件系统的任何目录，它不依赖于应用程序的运行目录。将词典拷贝到词典安装目录的过程称为安装词典。...

庖丁解牛分词 java包: "庖丁解牛分词" 是一款针对中文文本处理的分词工具，主要适用于Java环境。这个工具包的名称形象地借用中国古代故事“庖丁解牛”，寓意对文本的精细处理，如同庖丁对牛肉的熟练分解。在Java开发中，分词是自然语言...

刨丁解羊中文分词器-主要用于对网络蜘蛛或网络爬虫抓取的网页进行分词: 刨丁解羊中文分词器，主要用于对网络蜘蛛或网络爬虫抓取的网页进行分词，支持繁体中文分词、简体中文分词、英文分词，是制作通用搜索引擎和垂直搜索引擎的核心组件。该软件在普通PC机器上测试显示：TXT格式正文分词...

paoding 分词: 可以从官方网站或者第三方资源站点下载paoding分词的最新版本，例如`paoding-analysis-2.0.4-alpha2.zip`和`Paoding分词.zip`。 3. **解压与配置** 解压缩下载的文件，将解压后的目录添加到你的项目类路径...

Global site tag (gtag.js) - Google Analytics