使用libmmseg实现Ruby的中文分词功能

全部 Ruby Python PHP Flash C++ .net Rails Flex C C# Django

浏览 10566 次

锁定老帖子主题：使用libmmseg实现Ruby的中文分词功能精华帖 (12) :: 良好帖 (0) :: 新手帖 (0) :: 隐藏帖 (0)
作者	正文
robbin 等级: 资深会员性别: 文章: 6203 积分: 3125 来自: 上海	发表时间：2008-05-24 相关推荐: php mmseg,中文分词软件 LibMMSeg ruby分词 mysql sphinx 中文搜索_[转]Sphinx+Mysql+中文分词安装-实现中文全文搜索中文分词项目(开源/API接口)总结 rmmseg-cpp - 简洁高效的ruby中文分词程序更多相关推荐 Ruby 用Ruby on Rails开发web2.0网站的人都知道，ruby的全文检索功能不像Java支持的那样好，要提供中文的全文检索功能是一件很困难的事情，而偏偏全文检索是web2.0网站绕不过去的一道坎。虽然ruby也有类似lucene的全文检索软件ferret，但是ferret本身并没有提供中文分词功能，必须自己另行扩展中文分词功能。因此攻克ruby中文全文检索功能的瓶颈在于提供ruby的中文分词功能。 Java的lucene虽然也没有中文分词功能，但是现在有很多第三方开源的Java中文分词项目，因此Java的中文分词并不是一个难以解决的问题。但对于ruby来说，由于ruby的性能相当差，因此中文分词这种需要大量的、密集的字符串运算，ruby编写的中文分词代码性能根本无法接受，唯一的办法就是用C/C++编写分词算法，用ruby去调用。 libmmseg是李沫南用C++编写的开源的中文分词软件，libmmseg的分词算法采用的是“基于词库的最大匹配算法”，分词速度为每秒300KB左右。 libmmseg主要被作者用来实现Sphinx全文检索软件的中文分词功能，因此作者给Sphinx提供了一个补丁文件，可以让Sphinx集成libmmseg，从而支持对于中文文章的全文检索功能，关于这一点可以看：http://www.coreseek.cn/index.php?page=Sphinx的介绍。 libmmseg从0.7.2版本开始，作者提供了ruby调用的接口，所以我们可以直接在ruby程序里面调用libmmseg进行分词了。特别是我们可以用ferret去调用libmmseg分词功能，从而让ruby原生支持中文的全文检索，这无疑是一个好消息。然而libmmseg和ruby的集成颇有些麻烦，因此希望这篇文章可以提供一点点指导。一、下载libmmseg 首先是到作者的网站下面最新版本的libmmseg http://www.coreseek.cn/opensource/mmseg/，但libmmseg 0.7.3作者还没有在网站上面更新，因此可以从本文附件下载。二、安装libmmseg 解压缩以后，标准的Unix源代码编译安装流程： unzip mmseg-0.7.3.zip cd mmseg-0.7.3 chmod a+x configure ./configure make && make install 顺利的话libmmseg被安装到/usr/local相应的目录下面，建议再执行一下 ldconfig 命令，更新链接库缓存。提示：编译libmmseg，gcc的版本必须是4.0以上。我的Linux是gcc 3.3.3编译失败，解决办法是注释掉src/css/UnigramCorpusReader.cpp这个文件的int UnigramCorpusReader::open(const char* filename, const char* type)方法里面的所有内容，让这个方法为空方法，这样就可以编译通过了。但是mmseg命令行工具就无法使用了。三、安装ruby扩展 libmmseg软件包下面有一个ruby目录，进入该目录编译ruby。这里作者没有把相应的h文件依赖关系写好，因此需要我们手工把所有相关h文件拷贝到当前目录，确保编译的通过，详细操作如下： cd ruby cp /usr/local/include/mmseg/.h . cp ../src/.h . cp ../src/css/*.h . ruby extconf.lin.rb make && make install 顺利的话，编译好的mmseg.so就会被拷贝到ruby的系统库扩展目录下面。你可以简单的测试一下，进入irb，尝试load一下mmseg，看能否成功： irb require 'mmseg' 四、创建词典文件进入libmmseg软件包的data目录下面，执行如下命令： mmseg -u unigram.txt 把生成的文件改名为uni.lib，拷贝到ruby目录下面，然后执行测试：ruby test.rb，如果一切都顺利的话，你可以看到test.rb测试是通过的。提示：如果你的gcc版本低于4.0，则无法编译libmmseg，如果你按照前面的提示编译通过了，那么这里无法使用mmseg生成词典文件。解决办法就是另外找台机器安装gcc4.0编译，生成字典文件。五、编写ferret的Analyzer，封装一个可以处理中文的分词器我们知道ferret的StandardAnalyzer是不支持中文分词的，因此我们要自己封装一个Analyzer，用mmseg来分词。然后在我们自己的Rails项目目录下面，我们把前面创建好的词典文件uni.lib放在项目的dict/uni.lib位置(可以自己创建一个dict目录)，记得在程序里面正确的加载词典文件： require 'ferret' require 'mmseg' class ChineseAnalyzer < Ferret::Analysis::Analyzer def initialize @mmseg = Mmseg.createSeg("#{RAILS_ROOT}/dict", "") end def token_stream(field, text) Ferret::Analysis::LowerCaseFilter.new(Tokenizer.new(@mmseg, text)) end end class Tokenizer < Ferret::Analysis::TokenStream def initialize(mmseg, text) @mmseg = mmseg self.text = text end def next if @mmseg.next @token.text = @text[@mmseg.start...@mmseg.end] @token.start = @mmseg.start @token.end = @mmseg.end @token end end def text @text end def text=(text) @text = text @mmseg.setText(text) @token = Ferret::Analysis::Token.new("", 0, 0) end end 有了这个ChineseAnalyzer，我们就可以方便的在Rails程序里面进行中文分词和全文检索了。根据我的实际测试，在ruby代码中调用libmmseg，性能相当不错，而且内存消耗比较低，完全可以放心的在生产环境使用，作为Rails网站的中文全文检索功能的支撑。 mmseg-0.7.3.zip (2.6 MB) 描述: libmmseg 0.7.3 下载次数: 234 声明：ITeye文章版权属于作者，受法律保护。没有作者书面许可不得转载。推荐链接
返回顶楼

CaiDeHen 等级: 性别: 文章: 56 积分: 184 来自: 成都	发表时间：2008-05-24 个人觉得这个具有跨时代的意义。
返回顶楼	回帖地址 0 0 请登录后投票

xinbo.tang 等级: 初级会员性别: 文章: 19 积分: 40 来自: 北京	发表时间：2008-05-26 rails 的中文支持终于拨云见日了阿～
返回顶楼	回帖地址 0 0 请登录后投票

beenhero 等级: 初级会员性别: 文章: 1 积分: 30 来自: 杭州	发表时间：2008-05-27 子曰网，就用了李兄贡献的libmmseg做全文检索，http://www.zikii.com/search?q=地震&model=all，sphinx本身速度非常快，基本在0.006的水平，分词的效果我也很满意了。
返回顶楼	回帖地址 0 0 请登录后投票

purpen 等级: 初级会员性别: 文章: 2 积分: 30 来自: 北京	发表时间：2008-06-11 安装ruby扩展时，报以下error: 引用 cc -dynamic -bundle -undefined suppress -flat_namespace -o mmseg.bundle rubyapi.o -L"." -L"/opt/local/lib" -L. -L/opt/local/lib -lruby -lmmseg -lstdc++ -lpthread -ldl -lobjc /usr/bin/ld: can't locate file for: -lmmseg collect2: ld returned 1 exit status make: *** [mmseg.bundle] Error 1 顺便问一下，还有别的语言的扩展吗？
返回顶楼	回帖地址 0 0 请登录后投票

dazuiba 等级: 性别: 文章: 344 积分: 757 来自: 杭州	发表时间：2008-06-12 不知道大家尝试过没有：单字切词的查询效果已经相当不错了！针对一般的需要，起码够用了。如果大家的精力有限，还有查询精度要求并不很高，可以考虑跳过使用第三方分词器。直接单子切词。
返回顶楼	回帖地址 0 0 请登录后投票

robbin 等级: 资深会员性别: 文章: 6203 积分: 3125 来自: 上海	发表时间：2008-06-12 dazuiba 写道不知道大家尝试过没有：单字切词的查询效果已经相当不错了！针对一般的需要，起码够用了。如果大家的精力有限，还有查询精度要求并不很高，可以考虑跳过使用第三方分词器。直接单子切词。对，如果只是提供简单的全站搜索的话，单字拆分切词已经基本够用。更高精确度的切分在提供相关文章，语料训练，以及好友推荐方面会发挥作用。
返回顶楼	回帖地址 0 0 请登录后投票

universac 等级: 初级会员文章: 12 积分: 30 来自: ...	发表时间：2008-06-17 robbin，不知道你相关文章是怎么实现的，用什么算法提取关键字的？总不可能把分词结果一股脑交给sphinx或者ferret作为关键字去全文检索吧？
返回顶楼	回帖地址 0 0 请登录后投票

Stainlesssteel 等级: 初级会员文章: 40 积分: 50	发表时间：2008-07-10 universac 写道 robbin，不知道你相关文章是怎么实现的，用什么算法提取关键字的？总不可能把分词结果一股脑交给sphinx或者ferret作为关键字去全文检索吧？搜索分类算法
返回顶楼	回帖地址 0 0 请登录后投票

zhangzldipan 等级: 初级会员性别: 文章: 5 积分: 0 来自: 广州	发表时间：2008-09-26 require 'ChineseAnalyzer' acts_as_ferret({:fields => {:theme=>{},:content=>{}}}, {:analyzer=>ChineseAnalyzer::ChineseAnalyzer.new}) 加多点参数吧！提高速度啊！
返回顶楼	回帖地址 0 0 请登录后投票

论坛首页 → 编程语言技术版

跳转论坛: