阅读更多

20顶
0踩

编程语言

原创新闻 推荐ruby中文分词器 - RMMSeg

2008-03-05 10:57 by 见习编辑 robbin 评论(5) 有13284人浏览
用RoR开发网站经常遇到的一个困扰就是Ruby缺乏良好的中文分词器,虽然ferret可以实现lucene的绝大部分功能,但是ferret自身并没有中文分词器,甚至连CJK两分分词器都没有,因此很多RoR网站不得不通过各种方式去访问lucene来解决分词问题,但RMMSeg项目发布以后,这一切已经成为历史。

RMMSeg是pluskid(浙江大学的学生)开发的ruby中文分词器,在2008年2月份刚刚发布的。RMMSeg使用了基于词库的最大匹配算法进行中文分词,并且辅以相应的修正算法,而RMMSeg带的词库有大约12万中文词汇,已经比较全面了。根据作者自己博客上面的测试,中文分词的准确率可以达到98%以上。

经过JavaEye网站的试用,RMMSeg当前的0.1.5版本已经可以在小型的ruby应用当中实际使用了,分词的效果也还不错。当然由于RMMSeg目前是纯ruby代码的实现,因此索引的性能还是有点慢,比目前JavaEye的单字拆分算法慢5倍左右。但考虑到全文检索的索引都是后台job去运行,所以稍微慢一点也可以接受。pluskid计划在接下来的版本当中使用C来实现一部分功能,提高性能,降低内存耗用。

安装rmmseg很简单:

gem install rmmseg 


然后就可以在应用程序当中构造RMMSeg的中文分词器了:

require 'rmmseg'
require 'rmmseg/ferret'

analyzer = RMMSeg::Ferret::Analyzer.new do |tokenizer|
  Ferret::Analysis::LowerCaseFilter.new(tokenizer)
end


RMMSeg项目相当令人振奋,有了好的中文分词器,RoR在国内的互联网应用就扫除了一大障碍。在这里也呼吁大家关注和使用RMMSeg项目,帮助RMMSeg项目发展的更好。

RMMSeg的官方网站在: http://rmmseg.rubyforge.org/
pluskid的博客:http://pluskid.lifegoo.com

作者的Email: pluskid AT gmail DOT com


20
0
评论 共 5 条 请登录后发表评论
5 楼 tianshuaiorc 2012-03-30 13:04
 
4 楼 tianshuaiorc 2012-03-30 13:04
    
3 楼 carlosbdw 2008-03-07 00:30
ruby如何调用MMSEG呢?
2 楼 carlosbdw 2008-03-06 17:12
以上哪种中文分词工具可以辨别出词形?
1 楼 我想我是海 2008-03-05 13:11
MMSEG算法是台湾一个朋友的作品:
[url]http://technology.chtsai.org/mmseg/[url]
在Java方面,早就有一个实现:
[url]http://www.solol.org/projects/mmseg/[url]
与Lucene的整合也提供了:
[url]http://www.solol.org/blogs/200710/200710242000.html[url]

实践过程中,分词效果的确极佳。以前通过比较,比Javaeye上现有的分词算法效果都要好。

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

  • JFreeChart 高手请进!

    我现在的项目中要求,图中的标签(就是 一个类型的)默认的是在正下方,不知道能不能改为在 右方。

  • 求JFreechart绘制折线图!!高手请进!!急!急!急!

    编译出的结果 没有折线图 求高手帮忙写个折线图的代码 00001.TXT的文件的数据是: 2009 11 05 25.38 25.46 24.85 25.05 28931192 727022400.000 2009 11 06 25.39 25.69 24.81 25.10 30297501 762726336.000 ...

  • JAVA上百实例源码以及开源项目

    笔者当初为了学习JAVA,收集了很多经典源码,源码难易程度分为初级、中级、高级等,详情看源码列表,需要的可以直接下载! 这些源码反映了那时那景笔者对未来的盲目,对代码的热情、执着,对IT的憧憬、向往!...

  • Java高手真经. 高级编程卷:Java Web高级开发技术:EJB+消息通信+分布式+开源框架...

    【书名】Java高手真经. 高级编程卷:Java Web高级开发技术:EJB+消息通信+分布式+开源框架【作者】刘中兵【ISBN】978-7-121-09217-6【出版社】电子工业出版社【出版日期】2009年9月【定 价】...

  • 转的一杂谈

    网站架构(页面静态化,图片服务器分离,负载均衡)方案全解析 文章分类:综合技术 ...但是对于大量内容并且频繁更新的网站,我们无法全部手动去挨个实现,于是出现了我们常见的信息发布系统CMS,像我们常访问的各个门户...

  • webmagic采集CSDN的Java_WebDevelop页面

    请大家帮帮我,谢谢,耽误你们点时间,帮我指导指导,我做了2天都没有做出来,明天就要交作业了,请大家帮帮我。 , 请教hibernate排序问题, java 权限管理, 如何实现在jsp页面中选择txt文件,点击下载时进行下载, ...

  • 一个程序员的多年珍藏--收藏

    一个高手推荐的4本必读书:   中文版: 下載文件 Contributing to Eclipse Principles, Patterns and PlugIns.pdf (23.29 MB) 英文版: 下載文件 Contributing to Eclipse Principles, Patt ... (4.93 ...

  • 一个程序员多年的收藏

    一个高手推荐的4本必读书: 中文版: 下載文件 Contributing to Eclipse Principles, Patterns and PlugIns.pdf (23.29 MB) 英文版: 下載文件 Contributing to Eclipse Principles, Patt ... (4.93 MB)...

  • other 猿 多年收藏

    一个高手推荐的4本必读书: 中文版:下載文件 Contributing to Eclipse Principles, Patterns and PlugIns.pdf (23.29 MB) 英文版:下載文件 Contributing to Eclipse Principles, Patt ... (4.93 MB) 下載文件 ...

  • 收藏吧 少年

    一个高手推荐的4本必读书:   中文版: 下載文件 Contributing to Eclipse Principles, Patterns and PlugIns.pdf (23.29 MB) 英文版: 下載文件 Contributing to Eclipse Principles, Patt ... (4.93 ...

  • 有一种收藏叫转载

    一个高手推荐的4本必读书:   中文版: 下載文件 Contributing to Eclipse Principles, Patterns and PlugIns.pdf (23.29 MB) 英文版: 下載文件 Contributing to Eclipse Principles, Patt ... (4.93 ...

  • 多年的收藏

    一个高手推荐的4本必读书: 中文版: 下載文件 Contributing to Eclipse Principles, Patterns and PlugIns.pdf (23.29 MB) 英文版: 下載文件 Contributing to Eclipse Principles, Patt ... (4.93...

  • 个人书签

    - 精选文摘 - ITeye精华 Selenium - Web Browser Automation Apache JMeter - Apache JMeter™ 请不要再使用低级别的AOP API - 开涛的博客 - ITeye技术网站 高效 JavaEE 开发框架 JessMA v3.2.1 正式发布 - 编程语言...

  • Java高级面试题解析(二):百度Java面试题前200页(精选)

    高手答案: get和post是HTTP协议中的两种发送请求的方法,HTTP底层都是TCP/IP,故get和post都是TCP链接,二者能做的事情其实都是一样的,给get加上request body,给post加上url参数,技术上都是可以实现的。 而导致...

  • 家庭支出与收入数据数据集,根据人口统计和地理指标进行了分类,加拿大为例,适用于数据分析、机器学习

    这个数据集提供了2010年至2021年间加拿大各省的家庭支出与收入数据,这些数据根据人口统计和地理指标进行了分类。每行代表了年份(REF_DATE)、省份(GEO)以及编码后的支出或收入类型的唯一组合(COORDINATE)。以下是该数据集的关键特点及包含的列信息: 关键特点: 支出数据:家庭支出按照收入五分位数和支出类别进行分类。 收入数据:家庭收入值根据家庭类型、较年长成年人的年龄组别和收入水平细分。 地理位置匿名化:为了保护隐私,原始的地理位置标识符被替换为如“Province 1”这样的标签。 时间序列:涵盖了超过十年的财务数据(2010–2021),适合用于纵向经济和社会趋势分析。 包含的列: REF_DATE:记录年份(2010–2021) GEO:省份标签(例如,“Province 1”) Statistic:度量类型(例如,平均家庭支出) Before-tax household income quintile:税前家庭收入水平分组 Household expenditures, summary-level categories:支出类别 UOM:计量单位 COORD

  • 【锂电池剩余寿命预测】GRU门控循环单元锂电池剩余寿命预测(Matlab完整源码和数据)

    1.【锂电池剩余寿命预测】GRU门控循环单元锂电池剩余寿命预测(Matlab完整源码和数据) 2.数据集:NASA数据集,已经处理好,B0005电池训练、测试; 3.环境准备:Matlab2023b,可读性强; 4.模型描述:GRU门控循环单元在各种各样的问题上表现非常出色,现在被广泛使用。 5.领域描述:近年来,随着锂离子电池的能量密度、功率密度逐渐提升,其安全性能与剩余使用寿命预测变得愈发重要。本代码实现了GRU门控循环单元在该领域的应用。 6.作者介绍:机器学习之心,博客专家认证,机器学习领域创作者,2023博客之星TOP50,主做机器学习和深度学习时序、回归、分类、聚类和降维等程序设计和案例分析,文章底部有博主联系方式。从事Matlab、Python算法仿真工作8年,更多仿真源码、数据集定制私信。

  • 【更新至2024年】2000-2024年各省专利侵权案件结案数数据

    2000-2024年各省专利侵权案件结案数数据 1、时间:2000-2024年 2、来源:国家知识产权J 3、指标:专利侵权案件结案数 4、范围:31省 5、用途:可用于衡量知识产权保护水平

  • HMTL+JS+CSS实现贪吃蛇游戏,包含有一般模式,困难模式,还有无敌模式

    - 使用`<div>` 容器组织游戏界面,包含得分显示、游戏画布和操作按钮 - 支持三种游戏模式选择(一般模式、困难模式、无敌模式) - 移动端和桌面端兼容,提供触摸和键盘两种控制方式 2. CSS样式 : - 采用Flex布局实现页面居中显示 - 使用Grid布局实现方向按钮的排列 - 定义了游戏容器的阴影、圆角等视觉效果 - 为按钮添加了hover效果和过渡动画 3. JavaScript逻辑 : - 使用Canvas API实现游戏渲染 - 实现了蛇的移动、食物生成、碰撞检测等核心游戏逻辑 - 支持三种游戏模式,不同模式对应不同的游戏速度和规则 - 使用localStorage保存最高分记录 - 实现随机颜色生成,使游戏更具趣味性 代码整体结构清晰,功能完整,具有良好的可扩展性和可维护性。

  • 附件2-5:台区智能融合终端入网专业检测送检样品主要元器件清单.docx

    台区终端电科院送检文档

  • 基于强化学习的飞机升阻力特性预测模型实现及应用(含详细可运行代码及解释)

    内容概要:本文详细介绍了一个基于强化学习(RL)的飞机升阻力特性预测模型的实现过程。首先,定义了飞机空气动力学环境,包括状态空间、动作空间以及目标——预测升力系数(Cl)和阻力系数(Cd)。接着,通过生成模拟数据并进行预处理,创建了用于训练的数据集。然后,构建了一个神经网络代理模型,用于联合编码状态和动作,并预测升阻力系数。最后,实现了PPO算法来训练强化学习代理,使其能够根据当前状态选择最优动作,并通过不断迭代提高预测精度。文中还提供了完整的代码实现和详细的注释。 适合人群:航空航天领域的研究人员、机器学习工程师、对强化学习感兴趣的开发者。 使用场景及目标:适用于需要预测飞机升阻力特性的应用场景,如飞行器设计优化、性能评估等。目标是通过强化学习方法提升预测模型的准确性,从而为实际工程提供可靠的理论支持和技术手段。 其他说明:本文不仅涵盖了模型的设计与实现,还包括了数据生成、预处理等多个环节,有助于读者全面理解整个建模过程。同时,提供的代码可以作为研究和开发的基础,方便进一步扩展和改进。

Global site tag (gtag.js) - Google Analytics