庖丁解牛 中文分词 版本号 2.0.1
---------------------------------------------------
相对2.0.0版本变更如下:
重构(!):
svn上的代码和字典从原来的GBK编码转化为UTF-8编码(使用Eclipse下载代码的同学需要改变工程的encoding)
->从统计上,更多人使用UTF-8而非GBK,故改之;望谅。
重构(!):
重构PaodingMaker使调用make获取Paoding对象,一个配置文件默认只会产生一个Paoding(通过记录文件的绝对路径并记录之实现)
->2.0.0如果多次调用PaodingMaker.make会多次载入词典,虽然这是有意的。2.0.1不必有如此担心了,同一个配置文件的Paoding不会多次创建。
重构(!):
重构PaodingMaker使可以调用多次make方法根据不同配置文件(类路径或普通文件路径)产生不同的Paoding
->这个特性目的是为了支持根据不同的应用场合扩招Paoding的分词针对性(庖丁能够根据配置不同的Knife而具有完全不同的分词效果)
->2.0.0不能同时根据不同的配置文件产生Paoding对象
重构:
删除几乎无用的net.paoding.dictionary.support.Util类(其中有一个函数被move到其他位置)
重构:
增加Constants接口记录配置文件中配置项的name
增强:
当指定的词典安装目录或其子目录下没有任何词典文件时,抛出PaodingAnalysisException,并提示:Not found any dictionary files, have you set the 'paoding.dic.home' right?
增强:
可以在配置文件中指定字符集读取字典文件,如果没有配置则使用UTF-8。配置项名为paoding.dic.charset
增强:增加build.xml文件
错误:
当没有noiseWord、noiseCharactor、unit、confucianFamilyName等特定词典时无法使用,应为忽略之而正常使用
错误:
非词典直接目录下的设置词典忽略前缀无效
错误:
将错误的命名paoding-analy[s]is.jar纠正为paoding-analysis.jar
之前jar命名少了中括号标注的字母
---------------------------------------------------
任务表(还未实现的任务)
1、繁简体的支持[优先级:中]
2、动态转载变更的词典[优先级:高]
3、针对高级使用者的文档[优先级:低]
---------------------------------------------------
示例:
请参考:
庖丁解牛 2.0.0版本发布 之《"庖丁解牛" 使用指南》
---------------------------------------------------
相关地址
svn地址:
http://paoding.googlecode.com/svn/trunk/paoding-analysis
zip下载:
http://code.google.com/p/paoding/downloads/list
论 坛:
http://groups.google.com/group/paoding
JavaEye:
http://analysis.group.iteye.com/
分享到:
相关推荐
ocpp2.0.1最新版本充电桩欧标通讯协议
最新的版本为2.0.1,该版本在前一版的基础上可能引入了新的特性、性能优化以及对已知问题的修复。 FindBugs的工作原理是通过静态分析技术,不实际运行程序就能检查源代码。它会扫描代码,寻找可能存在的错误模式,...
这个“esp32-2.0.1.zip”压缩包很可能是ESP32的固件或者开发环境的一个版本更新,版本号为2.0.1。在深入探讨之前,先来理解一下ESP32的基本概念。 ESP32内含两个可编程的32位Tensilica LX6微处理器(主CPU),一个...
最新wireshark源码,版本2.0.1,供大家学习参考。
dwr2.0.1apidwr2.0.1apidwr2.0.1apidwr2.0.1apidwr2.0.1apidwr2.0.1apidwr2.0.1apidwr2.0.1apidwr2.0.1apidwr2.0.1apidwr2.0.1apidwr2.0.1apidwr2.0.1api
包含翻译后的API文档:kafka-clients-2.0.1-javadoc-API文档-中文(简体)版.zip; Maven坐标:org.apache.kafka:kafka-clients:2.0.1; 标签:apache、kafka、clients、中文文档、jar包、java; 使用方法:解压翻译后...
包含翻译后的API文档:validation-api-2.0.1.Final-javadoc-API文档-中文(简体)版.zip; Maven坐标:javax.validation:validation-api:2.0.1.Final; 标签:javax、api、validation、jar包、java、API文档、中文版;...
ckfinder2.0.1最新破解(已经去除注册提示,支持ASP,.NET,PHP等所有版本) 直接覆盖到ckfinder根目录就可以,请注意,一定是2.0.1版本的 请一定要看清楚版本号,否则可能不能用
"SRPBoard v2.0.1 简体中文版" 这个标题揭示了我们正在处理的是一个特定版本的论坛软件——SRPBoard,它的版本号是2.0.1,并且是针对中文用户优化的,具备简体中文语言支持。这通常意味着该软件在用户体验、界面设计...
sharetronix是一款免费开源微博客系统,最新版本为中文版2.0.1(基于官方sharetronix1.4.2) sharetronix最新中文版包括以下功能: 一、方便更新 1、对聊天工具的支持:支持用QQ来更新微博 2、对手机的支持:支持...
这个资源是Python的2.0.1版本的官方安装包,适用于Windows操作系统。在2001年,Python 2.0系列的发布引入了许多重要的改进和新特性,为开发者提供了更强大的功能和更好的编程体验。 Python 2.0.1是该系列的一个维护...
OCPP(Open Charge Point Protocol)是电动汽车充电站与充电网络管理系统的通信协议,其2.0.1版本是目前广泛应用的标准之一。这份文档,即"OCPP-2.0.1-Specification.zip",提供了详细的英文版协议规范,虽然对于非...
Sublime Text 2.0.1 简体中文版不仅保留了原有的英文版的所有功能,还在界面语言上进行了本地化处理,方便中文用户理解和操作。 以下是一些关于Sublime Text 2.0.1 简体中文版的关键知识点: 1. **多选与多重编辑*...
至于提供的压缩包文件"uTorrent2.0.1-ByrBTrepack.exe",这通常是一个经过第三方打包的安装程序,可能包含了额外的优化或汉化内容,以方便用户在中文环境下更好地使用uTorrent2.0.1。在安装之前,用户需确保来源的...
最新版本的OCPP是2.0.1,它在前一版本的基础上进行了优化和完善。 **1. OCPP 2.0.1的核心功能** - **认证与安全**:OCPP 2.0.1强化了身份验证和数据加密机制,确保只有授权的设备和系统可以进行通信,保护了用户的...
Nacos 2.0.1是该框架的一个稳定版本,提供了对Windows和Linux操作系统的支持,方便开发者在不同环境下进行开发和部署。 1. **服务注册与发现**:Nacos作为服务注册中心,允许微服务应用将自身服务注册到Nacos,同时...
python读取xlsx
这个压缩包包含了iText库的2.0.1到2.0.6版本。在这些版本之间,开发者可能找到了性能改进、新功能的添加或者修复了已知的bug。让我们深入了解一下iText库以及这些特定版本中的关键知识点。 首先,iText库的核心功能...
这个资源文件"ionicons-2.0.1.zip"包含了 Ionicons 的2.0.1版本,它是开发者在构建移动应用时常用的一个图标库,因其跨平台兼容性和易于使用的特性而备受推崇。 Ionicons 2.0.1版本的特点: 1. **跨平台兼容性**...
### Android源码版本号详解 在Android开发领域中,了解并掌握不同的源代码版本是非常重要的。这不仅能帮助开发者选择适合自己项目需求的版本进行开发,还能有效地管理与版本相关的各种问题。下面将根据提供的标签、...