阅读更多

20顶
0踩

编程语言

原创新闻 推荐ruby中文分词器 - RMMSeg

2008-03-05 10:57 by 见习编辑 robbin 评论(5) 有13273人浏览
用RoR开发网站经常遇到的一个困扰就是Ruby缺乏良好的中文分词器,虽然ferret可以实现lucene的绝大部分功能,但是ferret自身并没有中文分词器,甚至连CJK两分分词器都没有,因此很多RoR网站不得不通过各种方式去访问lucene来解决分词问题,但RMMSeg项目发布以后,这一切已经成为历史。

RMMSeg是pluskid(浙江大学的学生)开发的ruby中文分词器,在2008年2月份刚刚发布的。RMMSeg使用了基于词库的最大匹配算法进行中文分词,并且辅以相应的修正算法,而RMMSeg带的词库有大约12万中文词汇,已经比较全面了。根据作者自己博客上面的测试,中文分词的准确率可以达到98%以上。

经过JavaEye网站的试用,RMMSeg当前的0.1.5版本已经可以在小型的ruby应用当中实际使用了,分词的效果也还不错。当然由于RMMSeg目前是纯ruby代码的实现,因此索引的性能还是有点慢,比目前JavaEye的单字拆分算法慢5倍左右。但考虑到全文检索的索引都是后台job去运行,所以稍微慢一点也可以接受。pluskid计划在接下来的版本当中使用C来实现一部分功能,提高性能,降低内存耗用。

安装rmmseg很简单:

gem install rmmseg 


然后就可以在应用程序当中构造RMMSeg的中文分词器了:

require 'rmmseg'
require 'rmmseg/ferret'

analyzer = RMMSeg::Ferret::Analyzer.new do |tokenizer|
  Ferret::Analysis::LowerCaseFilter.new(tokenizer)
end


RMMSeg项目相当令人振奋,有了好的中文分词器,RoR在国内的互联网应用就扫除了一大障碍。在这里也呼吁大家关注和使用RMMSeg项目,帮助RMMSeg项目发展的更好。

RMMSeg的官方网站在: http://rmmseg.rubyforge.org/
pluskid的博客:http://pluskid.lifegoo.com

作者的Email: pluskid AT gmail DOT com


20
0
评论 共 5 条 请登录后发表评论
5 楼 tianshuaiorc 2012-03-30 13:04
 
4 楼 tianshuaiorc 2012-03-30 13:04
    
3 楼 carlosbdw 2008-03-07 00:30
ruby如何调用MMSEG呢?
2 楼 carlosbdw 2008-03-06 17:12
以上哪种中文分词工具可以辨别出词形?
1 楼 我想我是海 2008-03-05 13:11
MMSEG算法是台湾一个朋友的作品:
[url]http://technology.chtsai.org/mmseg/[url]
在Java方面,早就有一个实现:
[url]http://www.solol.org/projects/mmseg/[url]
与Lucene的整合也提供了:
[url]http://www.solol.org/blogs/200710/200710242000.html[url]

实践过程中,分词效果的确极佳。以前通过比较,比Javaeye上现有的分词算法效果都要好。

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

  • JFreeChart 高手请进!

    我现在的项目中要求,图中的标签(就是 一个类型的)默认的是在正下方,不知道能不能改为在 右方。

  • 求JFreechart绘制折线图!!高手请进!!急!急!急!

    编译出的结果 没有折线图 求高手帮忙写个折线图的代码 00001.TXT的文件的数据是: 2009 11 05 25.38 25.46 24.85 25.05 28931192 727022400.000 2009 11 06 25.39 25.69 24.81 25.10 30297501 762726336.000 ...

  • JAVA上百实例源码以及开源项目

    笔者当初为了学习JAVA,收集了很多经典源码,源码难易程度分为初级、中级、高级等,详情看源码列表,需要的可以直接下载! 这些源码反映了那时那景笔者对未来的盲目,对代码的热情、执着,对IT的憧憬、向往!...

  • Java高手真经. 高级编程卷:Java Web高级开发技术:EJB+消息通信+分布式+开源框架...

    【书名】Java高手真经. 高级编程卷:Java Web高级开发技术:EJB+消息通信+分布式+开源框架【作者】刘中兵【ISBN】978-7-121-09217-6【出版社】电子工业出版社【出版日期】2009年9月【定 价】...

  • 转的一杂谈

    网站架构(页面静态化,图片服务器分离,负载均衡)方案全解析 文章分类:综合技术 ...但是对于大量内容并且频繁更新的网站,我们无法全部手动去挨个实现,于是出现了我们常见的信息发布系统CMS,像我们常访问的各个门户...

  • webmagic采集CSDN的Java_WebDevelop页面

    请大家帮帮我,谢谢,耽误你们点时间,帮我指导指导,我做了2天都没有做出来,明天就要交作业了,请大家帮帮我。 , 请教hibernate排序问题, java 权限管理, 如何实现在jsp页面中选择txt文件,点击下载时进行下载, ...

  • 一个程序员的多年珍藏--收藏

    一个高手推荐的4本必读书:   中文版: 下載文件 Contributing to Eclipse Principles, Patterns and PlugIns.pdf (23.29 MB) 英文版: 下載文件 Contributing to Eclipse Principles, Patt ... (4.93 ...

  • 一个程序员多年的收藏

    一个高手推荐的4本必读书: 中文版: 下載文件 Contributing to Eclipse Principles, Patterns and PlugIns.pdf (23.29 MB) 英文版: 下載文件 Contributing to Eclipse Principles, Patt ... (4.93 MB)...

  • other 猿 多年收藏

    一个高手推荐的4本必读书: 中文版:下載文件 Contributing to Eclipse Principles, Patterns and PlugIns.pdf (23.29 MB) 英文版:下載文件 Contributing to Eclipse Principles, Patt ... (4.93 MB) 下載文件 ...

  • 收藏吧 少年

    一个高手推荐的4本必读书:   中文版: 下載文件 Contributing to Eclipse Principles, Patterns and PlugIns.pdf (23.29 MB) 英文版: 下載文件 Contributing to Eclipse Principles, Patt ... (4.93 ...

  • 有一种收藏叫转载

    一个高手推荐的4本必读书:   中文版: 下載文件 Contributing to Eclipse Principles, Patterns and PlugIns.pdf (23.29 MB) 英文版: 下載文件 Contributing to Eclipse Principles, Patt ... (4.93 ...

  • 多年的收藏

    一个高手推荐的4本必读书: 中文版: 下載文件 Contributing to Eclipse Principles, Patterns and PlugIns.pdf (23.29 MB) 英文版: 下載文件 Contributing to Eclipse Principles, Patt ... (4.93...

  • 个人书签

    - 精选文摘 - ITeye精华 Selenium - Web Browser Automation Apache JMeter - Apache JMeter™ 请不要再使用低级别的AOP API - 开涛的博客 - ITeye技术网站 高效 JavaEE 开发框架 JessMA v3.2.1 正式发布 - 编程语言...

  • Java高级面试题解析(二):百度Java面试题前200页(精选)

    高手答案: get和post是HTTP协议中的两种发送请求的方法,HTTP底层都是TCP/IP,故get和post都是TCP链接,二者能做的事情其实都是一样的,给get加上request body,给post加上url参数,技术上都是可以实现的。 而导致...

  • 智慧园区3D可视化解决方案PPT(24页).pptx

    在智慧园区建设的浪潮中,一个集高效、安全、便捷于一体的综合解决方案正逐步成为现代园区管理的标配。这一方案旨在解决传统园区面临的智能化水平低、信息孤岛、管理手段落后等痛点,通过信息化平台与智能硬件的深度融合,为园区带来前所未有的变革。 首先,智慧园区综合解决方案以提升园区整体智能化水平为核心,打破了信息孤岛现象。通过构建统一的智能运营中心(IOC),采用1+N模式,即一个智能运营中心集成多个应用系统,实现了园区内各系统的互联互通与数据共享。IOC运营中心如同园区的“智慧大脑”,利用大数据可视化技术,将园区安防、机电设备运行、车辆通行、人员流动、能源能耗等关键信息实时呈现在拼接巨屏上,管理者可直观掌握园区运行状态,实现科学决策。这种“万物互联”的能力不仅消除了系统间的壁垒,还大幅提升了管理效率,让园区管理更加精细化、智能化。 更令人兴奋的是,该方案融入了诸多前沿科技,让智慧园区充满了未来感。例如,利用AI视频分析技术,智慧园区实现了对人脸、车辆、行为的智能识别与追踪,不仅极大提升了安防水平,还能为园区提供精准的人流分析、车辆管理等增值服务。同时,无人机巡查、巡逻机器人等智能设备的加入,让园区安全无死角,管理更轻松。特别是巡逻机器人,不仅能进行360度地面全天候巡检,还能自主绕障、充电,甚至具备火灾预警、空气质量检测等环境感知能力,成为了园区管理的得力助手。此外,通过构建高精度数字孪生系统,将园区现实场景与数字世界完美融合,管理者可借助VR/AR技术进行远程巡检、设备维护等操作,仿佛置身于一个虚拟与现实交织的智慧世界。 最值得关注的是,智慧园区综合解决方案还带来了显著的经济与社会效益。通过优化园区管理流程,实现降本增效。例如,智能库存管理、及时响应采购需求等举措,大幅减少了库存积压与浪费;而设备自动化与远程监控则降低了维修与人力成本。同时,借助大数据分析技术,园区可精准把握产业趋势,优化招商策略,提高入驻企业满意度与营收水平。此外,智慧园区的低碳节能设计,通过能源分析与精细化管理,实现了能耗的显著降低,为园区可持续发展奠定了坚实基础。总之,这一综合解决方案不仅让园区管理变得更加智慧、高效,更为入驻企业与员工带来了更加舒适、便捷的工作与生活环境,是未来园区建设的必然趋势。

  • labelme标注的json转mask掩码图,用于分割数据集 批量转化,生成cityscapes格式的数据集

    labelme标注的json转mask掩码图,用于分割数据集 批量转化,生成cityscapes格式的数据集

  • (参考GUI)MATLAB GUI漂浮物垃圾分类检测.zip

    (参考GUI)MATLAB GUI漂浮物垃圾分类检测.zip

  • 人脸识别_OpenCV_活体检测_证件照拍照_Demo_1741778955.zip

    人脸识别项目源码实战

  • 人脸识别_科大讯飞_Face_签到系统_Swface_1741770704.zip

    人脸识别项目实战

  • 跟网型逆变器小干扰稳定性分析与控制策略优化simulink仿真模型和代码.zip

    本仿真模型基于MATLAB/Simulink(版本MATLAB 2016Rb)软件。建议采用matlab2016 Rb及以上版本打开。(若需要其他版本可联系代为转换) CSDN详情地址:https://blog.csdn.net/qq_50594161/article/details/146242453sharetype=blogdetail&sharerId=146242453&sharerefer=PC&sharesource=qq_50594161&spm=1011.2480.3001.8118

Global site tag (gtag.js) - Google Analytics