`
soul_fly
  • 浏览: 39500 次
  • 性别: Icon_minigender_1
  • 来自: 武汉
社区版块
存档分类
最新评论

Yard中文分词系统V0.1版性能分析

阅读更多
Yard中文分词系统V0.1还有很多地方需要完善,它对中文人名、地名、数字、英文等还不能进行切分,在歧义句的划分上也还存在问题。我会在这个月低推出0.2版将实现对数字、英文的切分,同时将利用现有的基于词频的方法加上MP算法实现对歧义句很好的划分。好了还是来谈谈Yard中文分词系统V0.1版的性能吧。
在中文分词领域中歧义句的划分比较复杂,常用的方法有FWF算法和MP算法等,在Yard系统中我没有用这些算法,而是基于搜狗互联网词库对1亿个网页统计得出的互联网词汇词频加上规约规则对歧义句进行划分,从测试结果看效果比较好。
Yard中文分词系统的分词效率比较高,在我的laptop上可以达到2M/S,这得因为Yard系统采用双字哈希表对词典进行组织避免了中文最长词带来的分词效率问题。
常用歧义句:

乒乓球拍卖完了
结合成分子时
研究生一般年龄较大
研究生命起源
这个研究所不大
这项研究所涉及的问题很复杂
老师叫你马上去
他从马上下来
将来的上海会有严重污染
实现在情报工作方面的自动化
战事已经有了结局
发展中国家的经济状况很好
使用户外无线要注意避雷
使用户满意的做法
昨天下午他不在
独立自主和平等互利原则
太平淡的故事

Yard分词系统的分词结果:

乒乓球 拍卖 完了
结合 成分 子 时

研究生 一般 年龄 较大
研究 生命 起源
这个 研究所 不大
这项 研究所 涉及 的 问题 很复杂
老师 叫你 马上 去
他 从 马上 下来
将来 的 上海 会有 严重 污染
实 现在 情报 工作 方面 的 自动化
战事 已经有了 结局
发展中国家 的 经济状况 很好
使用 户 外 无线 要注意 避雷
使用 户满意 的 做法
昨 天下 午 他 不在
独立自主 和平 等 互利 原则
太 平淡 的 故事

Ictclas分词系统的结果

乒乓球拍/n 卖/v 完/a 了/u
结合/v 成/v 分子/n 时/ng
研究生/n 一般/a 年龄/n 较/d 大/a
研究/vn 生命/n 起源/n
这个/r 研究所/n 不/d 大/a
这项/r 研究/v 所/u 涉及/v 的/u 问题/n 很/d 复杂/a
老师/n 叫/v 你/r 马上/d 去/v
他/r 从/p 马/n 上/f 下来/v
将来/t 的/u 上海/ns 会/v 有/v 严重/ad 污染/v
实现/v 在/p 情报/n 工作/vn 方面/n 的/u 自动化/vn
战事/n 已经/d 有/v 了/u 结局/n
发展中国家/l 的/u 经济/n 状况/n 很/d 好/a
使用/v 户外/s 无线/b 要/v 注意/v 避/v 雷/nr
使/v 用户/n 满意/v 的/u 做法/n
昨天/t 下午/t 他/r 不/d 在/p
独立自主/i 和平/n 等/u 互利/v 原则/n
太平/ns 淡/a 的/u 故事/n


SCWS中文分词第四版的结果如下:

乒乓球 拍卖 完了
结合 成 分子 时
研究生 一般 年龄 较大
研究 生命 起源
这个 研究所 不大
这项 研究所 涉及 的 问题 很 复杂
老师 叫 你 马上 去
他 从 马上 下来
将来 的 上海 会 有 严重 污染
实现 在 情报 工作 方面 的 自动化
战事 已经 有 了 结局
发展中国家 的 经济状况 很 好
使 用户 外 无线 要 注意 避雷
使 用户 满意 的 做法
昨天 下午 他 不在
独立自主 和 平等互利 原则
太平 淡 的 故事

Yard分词系统在歧义句的划分上基本达到了SCWS正文分词的效果和Ictclas相比还有较远的距离,不过我相信在下一个版本中将会得到很到的改善。
0.1版源代码下载地址:http://soul-fly.iteye.com/blog/406926
2
0
分享到:
评论

相关推荐

    Yard中文分词系统V0.1.1版

    Yard中文分词系统采用改进了的正向最大匹配算法,利用双字哈希进行词典组织解决了中文分词中最长词带来的分词效率低下问题。 本次发布的版本为0.1.1版能对中文词组进行完美的切分同时利用词组的词频和词性解决了...

    后院分词系统(yard)源代码下载

    后院分词系统(Yard)是一款专注于中文分词的开源软件,它的出现为开发者提供了高效、准确的分词解决方案。源代码完全采用Java语言编写,确保了良好的跨平台性和可扩展性。Java作为一种广泛使用的编程语言,拥有丰富...

    Ruby-Yard是一款Ruby文档工具

    Yard的另一个亮点是其模板系统。默认情况下,Yard会生成一套标准的HTML文档结构,但开发者可以根据需求自定义模板,以适应不同的展示风格或者集成到现有的网站框架中。这使得Yard能够生成符合团队或项目风格的文档,...

    yard, YARD是一个 ruby 文档工具 Y 代表"Yay"!.zip

    yard, YARD是一个 ruby 文档工具 Y 代表"Yay"! : ruby 文档工具 ! 概要YARD是 ruby 编程语言的文档生成工具。 用户可以生成一致的。可用的文档,可以很容易地导出到许多格式,也支持扩展自定义类级定义( 比如自定义...

    Ruby文档工具Yard.zip

    Yard,是一款 Ruby 文档工具。使用它,你可以在为你的 Ruby app 写文档时预览你的代码。它拥有简单的定制模板,支持你自己的 DSL,并有大量优秀的扩展,而且每天都在增加。 标签:Yard

    yard:另一个ROC曲线抽屉

    由于yard目前处于繁重的开发过程中,因此您可能无法获得yard所有最新和最强大的功能,但是您很可能会在这里找到即使在特殊情况下也不会崩溃的版本。 的页面。 在此页面上,您可以尽可能密切地关注yard的发展。 您...

    yard-mode.el:Emacs次要模式,用于编辑YARD标签

    支持在ruby注释中将YARD标签和指令字体化的基本支持。 安装 使用 : Mx package-install yard-mode 。 将其添加到您的Ruby挂钩: (add-hook 'ruby-mode-hook 'yard-mode ) 如果您还希望得到eldoc支持,以便在...

    Automatic sweep the yard_扫码_TheYard_

    "Automatic sweep the yard_扫码_TheYard_"这个标题可能指的是一个自动化系统,它能够在特定环境中,如仓库(The Yard)快速扫描并识别多个条形码或二维码,以实现高效的数据录入和管理。下面我们将深入探讨扫码技术...

    The YARD Parsing Framework for C++-开源

    《深入解析YARD C++解析框架》 YARD(Yet Another Recursive Descent)是一个专为C++设计的开源解析框架,其目标是提供一个高效、灵活且易于使用的工具,用于处理语言解析和编译任务。这个框架的核心在于递归下降...

    engineyard:从命令行部署到Engine Yard Cloud

    Engine Yard命令行实用程序。 在Ruby 1.8.7或1.9.2上安装 注意:这对您的Engine Yard环境Ruby版本没有影响。 这仅与用于运行此gem的本地开发Ruby版本有关。 无论此更改如何,环境都可以继续使用所选的Ruby版本。 ...

    Yard_OpenGL-master.zip

    "Yard_OpenGL-master.zip"是一个包含OpenGL相关代码的压缩包,适合开发者进行二次开发,将其集成到自己的项目中以实现丰富的图形渲染功能。 首先,让我们了解一下OpenGL的基本概念。OpenGL是一个低级的图形库,它不...

    MATLAB课程课件及代码_yard5oo_Matlab2018课件_matlab_金融_

    MATLAB,全称为“Matrix Laboratory”,是一款强大的数学计算软件,广泛应用于工程计算、科学建模、数据分析以及图像处理等领域。在金融行业中,MATLAB更是扮演了不可或缺的角色,它能够高效地进行金融数据处理、...

    Indirect Addressing - Pallet Tracking Brick Yard 500.rar

    间接寻址是工业自动化编程中的一个重要概念,尤其在Allen Bradley(AB)的可编程逻辑控制器(PLC)系统中,它被广泛应用于数据处理和内存管理。本资料“Indirect Addressing - Pallet Tracking Brick Yard 500.rar”...

    快递系统.zip

    这可能需要用到GIS地理信息系统,结合大数据分析和优化算法(如遗传算法、贪心算法等)来实现。 在派送阶段,系统需要确保准确无误地将包裹送到指定地点。这通常需要与配送员的移动应用进行实时交互,更新配送状态...

    Rust中 Shutting-yard算法的示例实现_rust_代码_下载

    在 Rust中 Edsger Dijkstra 的Shutting-yard 算法的示例实现。 此实现处理: 二进制+, -, *, /, 和^(指数)运算符 一元+和-运算符 括号 关联性(大多数运算符左侧,取幂右侧) 分流 Rust 包括一个基于正则表达式...

    yard-contracts:来自合同的自动参数文档的 YARD 插件

    堆场合同 yard-contracts 是一个 YARD 插件,可与出色的 gem 配合使用,自动记录方法签名中的参数类型和描述,节省时间,使代码简洁并保持文档一致。 您是否厌倦了编码验证、编写错误消息然后记录这些事情? 所有...

    YARD是Ruby文档工具。 Y代表“是!”-Ruby开发

    Ruby文档工具摘要YARD是Ruby编程语言的文档生成工具。 它使用户能够生成一致且可用的文档,并可以将其导出到YARD:是的! Ruby文档工具摘要YARD是用于Ruby编程语言的文档生成工具。 它使用户能够生成一致,可用的...

    yard-link_stdlib

    待办事项:删除此内容和上面的文字,并描述您的宝石安装将此行添加到您的应用程序的Gemfile中: gem 'yard-link_stdlib' 然后执行: $ bundle或将其自己安装为: $ gem install yard-link_stdlib用法待办事项:在...

    yard-junk:摆脱YARD文档中的垃圾

    Yard-Junk:在您的YARD文档中摆脱垃圾! Yard-Junk是插件/补丁,它提供: 结构化文档错误记录; 文档错误验证器,可以集成到CI管道中。 展示柜 让我们为库生成文档。 不带垃圾场的`yard doc`输出[warn]: in YARD...

    MongoDB 最佳实3

    推荐使用64位系统,并在Engine Yard云服务中选择Large实例来部署MongoDB,以充分利用其性能。 总的来说,MongoDB的最佳实践强调了测试、性能优化、高可用性、数据安全和版本管理的重要性。在应用MongoDB时,开发者...

Global site tag (gtag.js) - Google Analytics