最新文章列表

偷梁换柱:MMSeg4j借用庖丁解牛的词库

   “……他不回答,对柜里说,“温两碗酒,要一碟茴香豆。”便排出九文大钱。他们又故意的高声嚷道,“你一定又偷了人家的东西了!”孔乙己睁大眼睛说,“你怎么这样凭空污人清白……”“什么清白?我前天亲眼见你偷了何家的书,吊着打。”孔乙己便涨红了脸,额上的青筋条条绽出,争辩道,“窃书不能算偷……窃书!……读书人的事,能算偷么?”接连便是难懂的话,什么“君子固穷”,什么“者乎”之类,引得众人都哄笑起来;店内 ...
heweiya 评论(0) 有3353人浏览 2011-05-11 10:41

全文检索

全文检索(Ferret) 由于sphinx只能支持mysql数据库,所以只能采用其他全文检索方案了 (sphinx新版本0.9.9rc2是支持odbc连接oracle的,但coreseek的中文分词补丁只支持0.9.9rc1,而且thinking-sphinx也不支持oracle-adapter) 全文检索引擎采用:ferret 中文分词:rmmseg Rails调用引擎的插件:ac ...
JudyWang 评论(0) 有1062人浏览 2011-05-09 11:23

搜索引擎技术一(帖子收藏)

   利用Sphinx实现实时全文检索  基于Sphinx构建准实时更新的分布式通用搜索引擎平台  尝试使用IKVM运行Lucene 2.9.0版  中文分词的整理  Apache Lucene 2.9的改进  Scrapy 轻松定制网络爬虫  如何识别搜索引擎爬虫的真伪 ...
liuxinglanyue 评论(0) 有1288人浏览 2011-01-05 20:01

mmseg4j 中文分词器的一些简介整理

在 lucene 中,我们是使用 IndexWriter 调用 Analyzer 将文章切成以词为单位的 Stream,然后生成索引的。lucene 内建的分词器很多,比如:按空白字符分词的Whites ...
lovnet 评论(0) 有1036人浏览 2010-05-14 17:03

mmseg4j 中文分词器的一些简介整理

在 lucene 中,我们是使用 IndexWriter 调用 Analyzer 将文章切成以词为单位的 Stream,然后生成索引的。lucene 内建的分词器很多,比如:按空白字符分词的Whites ...
lovnet 评论(0) 有936人浏览 2010-05-14 17:03

中文分词 mmseg4j-1.8

原文出处:http://blog.chenlb.com/2009/10/chinese-segment-mmseg4j-1_8-release.html   想发布新版的 mmseg4j 到现在已经有二个多月了。主要是因为这段时间忙其它事情了。现 Lucene 2.9 发布了,solr 1.4 也应该会比较快就要发布了。对 mmseg4j 兼容新版的 lucene/solr 也是个任 ...
dzq2008 评论(0) 有2443人浏览 2010-04-09 15:18

中文分词 mmseg4j-1.8 版发布

想发布新版的 mmseg4j 到现在已经有二个多月了。主要是因为这段时间忙其它事情了。现 Lucene 2.9 发布了,solr 1.4 也应该会比较快就要发布了。对 mmseg4j 兼容新版的 lucene/solr 也是个任务。   现 mmseg4j 发布新版 1.8,可以下载:mmseg4j-1.8.zip 包括了源码与词库,还有创建文件。下面说下此版的主要变更:   new: ...
chenlb 评论(4) 有4518人浏览 2009-10-19 09:39

Thinking Sphinx + Coreseek + rmmseg的安装与使用

要在Rails上使用全文检索,选择一直不多,以前我一直是使用Ferret + Act_as_ferret + rmmseg的.不过Ferret不支持ruby 1.9,好像也很久没更新了.现在Rails上可用的全文检索又多了一个,那就是Thinking Sphinx . JavaEye的 司徒正美 同学已经写了篇介绍TS的大作,详见利用thinking sphinx实现全文检索 .我只是记录一下我在本 ...
yangzhihuan 评论(0) 有3823人浏览 2009-10-06 23:48

gem备份

gem list|awk '{printf "gem i %s -y\n",$1}' > gems_installer.sh gem i actionmailer -y gem i actionpack -y gem i actionwebservice -y gem i activerecord -y gem i activerecord-oracle-a ...
CharlesCui 评论(0) 有754人浏览 2009-09-08 13:47

中文分词 mmseg4j

使用 paoding 的配置觉得有点复杂,而且管理词库也有点不方便,同时自己也想了解下中文分词算法,然后就想自己写个中文分词器,在lucene和solr中使用。在 javaeye 看到有关 mmseg 的简介,看了下还不错,简单方便,那就用它来写个java版吧,我搜索 mmseg的java版(好像是 solo,官方已经下载不了),弄清分词算法还是自己写写吧。 实在想不到其它名字,就称它为 mmse ...
chenlb 评论(37) 有25333人浏览 2009-03-22 23:46

Ferret + Rmmseg

首先,在ubuntu下要安装 atp-get install build-essential  zlib1g-dev ruby需要安装dev包 1、安装ferret sudo gem install ferret 2、安装acts_as_ferret 可用gem sudo gem install acts_as_ferret 或用plugins svn://projects.jkr ...
yang_kunlun 评论(0) 有1527人浏览 2008-11-13 18:58

貌似rmmseg + ferret中文分词不是很好

用了一下ruby的中文分词rmmseg + ferret,发现rmmseg的中文分词并不是很好,比如:Hawkins开始了他第一部掌上电脑的设计构想。搜索“掌上电脑”并不能搜索到结果,但是如果把上面这一句改为:Hawkins开始了他第一部 掌上电脑 的设计构想。请注意“掌上电脑”两边的空格,这样的话,rmmseg就可以正确地分词了。 对英文的分词倒是很准确的(好像个个全文检索对英文分词都很强的吧) ...
yangzhihuan 评论(2) 有1627人浏览 2008-10-05 18:41

求教rmmseg + ferret设置问题

安装好rmmseg,ferret,acts_as_ferret后,启动rails无法加载rmmseg 已经在environment.rb加上了: config.gem 'ferret',:version => '0.11.6' config.gem 'rmmseg',:version => '0.1.6' config.gem 'acts_as_ferret',:v ...
yangzhihuan 评论(1) 有2049人浏览 2008-10-05 17:55

python 中文分词

JavaEye曾经报道过ruby的中文分词程序:rmmseg-cpp 这个项目。rmmseg-cpp实际上是用C++来编写的分词,只在最外层和ruby进行了粘合。 现在作者pluskid(张驰原)在rmmseg-cpp的基础上提供了Python的代码封装,可以用在Python项目当中进行中文分词,用法示例如下: Python代码 from  pymmseg  import  mm ...
shake863 评论(0) 有2963人浏览 2008-08-15 09:29

备忘:使用RMMSeg+Ferret完成全文搜索

  经过三四天的折腾,我终于完成了一个有基本功能的全文搜索,这一段时间的目标就是要做全文搜索,想实现的功能像:www.1718zx.cn ,这是我的一个网站,使用compass来完成的,本人在对RUBY语法不是很清楚的情况下开始上手的.   呵呵,操作步骤:   1),gem install几个东东:                gem install ferret             ...
heweiya 评论(5) 有1676人浏览 2008-07-25 16:26

rmmseg-cpp - 简洁高效的ruby中文分词程序

我在前一篇文章向大家介绍了libmmseg实现ruby的中文分词,在这篇文章当中向大家介绍另外一个优秀的ruby中文分词程序rmmseg-cpp。 rmmseg是浙江大学的学生pl ...
robbin 评论(1) 有11232人浏览 2008-05-27 00:47

ferret+acts_as_ferret+RMMSeg全文索引+中文分词的使用

首先,在ubuntu下要安装 atp-get install build-essential  zlib1g-dev ruby需要安装dev包 1、安装ferret sudo gem install ferret 2、安装acts_as_ferret 可用gem sudo gem install acts_as_ferret 或用plugins svn://projects.jkraemer.net ...
wtb 评论(2) 有2845人浏览 2008-04-22 13:21

最近博客热门TAG

Apache(33931) Lucene(5053) Hadoop(5049) nginx(3449) vim(3262) GCC(2954) memcached(2625) jfreechart(1688) Django(1602) Zend(1413) ActiveMQ(1398) Grails(1374) ActiveRecord(1349) OpenSource(1236) Emacs(870) Glassfish(858) lighttpd(810) rubygems(716) GAE(631) Blend(516)

博客人气排行榜

    博客电子书下载排行

      >>浏览更多下载

      相关资讯

      相关讨论

      Global site tag (gtag.js) - Google Analytics