庖丁中文分词示例应用paoding.net已上线使用

Qieqie

浏览: 342315 次
性别:
来自: 北京

最近访客更多访客>>

OSSEZTEC

ssy1725

overflow_exception

Kanepan

博主相关

博客

微博

相册

留言

关于我

文章分类

全部博客 (54)

社区版块

存档分类

.net lucene 算法 Hadoop 多线程

地址：http://paoding.net

这是庖丁中文分词的示例应用。使用的分词器版本是2.0.4-alpha2。
有关心庖丁中文分词的同学，可以通过访问http://paoding.net测试庖丁的搜索效果。

(2.0.4-alpha2发布时间是2007-10-22日)。

----------------------------------------------------------
索引范围：
新浪博客，2007-9-27日统计的点击率最前的1000名博客地址。
paoding建立了这1000个用户从其创建博客到2007-9-26日的所有文章，以及部分博客的9月27日的文章

----------------------------------------------------------
重要数据摘要：
博客数： 1000
博客文章数： >30万篇
Lucene索引库个数： 1个
索引库状态：已优化
索引库大小： 3.03G
操作系统: REHL4
查询效率：没有不良体验

分享到：

从搜索引擎的角度看中文分词算法 | 冤家路窄：QueryParser对中文分词的要求

2007-10-26 04:32
浏览 6602
评论(15)
论坛回复 / 浏览 (14 / 8198)
查看更多

15 楼 chenlb 2008-03-10

不错,个人觉得比je好,支持

14 楼 bluepoint 2007-11-11

特想了解下数据采集是怎么运作的!

13 楼 imjl 2007-10-27

呵呵，我一般测试过了才会发表我自己看法。不会人云我亦云。

我也不会轻易加入邮件列表，我每天处理5-6个邮件列表。

我就看到他发了，还没做过测试，但他的数据看上去不错。所以复制过来。

12 楼 Qieqie 2007-10-26

说了不一定相信，他是我兄弟，我们很经常在一起交流各种看法。

先谢谢支持。(然后开始严肃)

鼓励公开发帖/发向邮件列表提出对paoding或对其他人有益的质疑、疑问、球助、错误报告、建议(包括算法建议)。
其它的，比如：情绪类的(如顶，支持，谢谢，不看好之类的)，私人信息类，询问的等与以上加粗标志的类别不大的
站内消息，或私人邮件沟通会更好。

javaeye不让发求zhu，以上特写为“球助”--

11 楼 imjl 2007-10-26

来自“猎图网 www.richmap.cn”基于IKAnalyzer分词算法的准商业化Lucene中文分词器。 1. 正向全切分算法，42万汉字字符/每秒的处理能力（IBM ThinkPad 酷睿I 1.6G 1G内存 WinXP） 2. 对数量词、地名、路名的优化处理 3. 对未知词汇采用自识别结合二元切分算法，确保搜索召回率正向全切分分词器：org.mira.lucene.analysis.IK_CAnalyzer(适合建索引时使用) 正向最大全切分分词器：org.mira.lucene.analysis.MIK_CAnalyzer(适合用户输入检索时使用)

这是我群里的一个人上传的附件介绍。

你可以就这个analyzer和你的比较下。。

link: http://lucene-group.group.iteye.com/topics/download/609d3434-e6bf-4d78-87e2-8dd15ad74524

你的我有空就会测试，，加油哦支持。

10 楼 Qieqie 2007-10-26

to imjl:
您可以通过运行analyzer.bat后在paoding>提示符后输入:-f your_file_path (包括冒号)来了解庖丁对你提供的文件的分词速度。
您可以创建一个“很大很大”的文件来测试。
这是我现在在我的工作机器上的结果：

引用

paoding> :-f fubaba.txt -P no
read content from:xxx\fubaba.txt

        分词器net.paoding.analysis.analyzer.PaodingAnalyzer
        内容长度 1269656字符，分 589351个词
        分词耗时 1781ms

环境：Notebook;Pentium 1.73GHz; WinXp Home;
fubaba.txt大小：2365KB

相同环境下，效率大概是CJKAnalyzer/StandardAnalyzer/ChineseAnalzyer的1/2到1/4。

to rainsf:
耗时的问题，不是0秒，而是int与double的问题没处理好的问题。
刚刚重启了Web容器了。

9 楼 imjl 2007-10-26

rainsf 写道

imjl 写道

能说下索引时的一些数据信息吗？

比如索引多大的doc，速度多少，硬件资源的变化状况

最好拿一些论坛的数据，因为论坛的字符基本涵盖了大部分使用的。

Lucene索引一个Document基本上很快的，这个不用担心，如果你觉得批量索引慢，你可以split成多批，用多线程索引再Merge。或者分布到多台机器上去执行，参考Hadoop.

如果是千万数据和亿级数据呢？

我有自己的方式，不需要看其他了。

我只是关心分词的效率。

8 楼 rainsf 2007-10-26

imjl 写道

7 楼 imjl 2007-10-26

6 楼 imjl 2007-10-26

呵呵，看看。

5 楼 rainsf 2007-10-26

Qieqie，好久不见，搜索速度很快啊，但没理由搜索时间全都是0吧？你做了缓存吗？能提供你搜索那部分的源代码参考下吗？如果可以，作为庖丁的一个示例发布那是非常好的。

4 楼 rainsf 2007-10-26

woodream 写道

感觉不错~ 虽然搜索内容有限！不知道是否开源，我主要想看看您的机器人怎么运作的！嘻嘻~

机器人可以看Nutch，这里面有Googel的影子，如GFS,MapReduce。

3 楼 woodream 2007-10-26

感觉不错~ 虽然搜索内容有限！不知道是否开源，我主要想看看您的机器人怎么运作的！嘻嘻~

2 楼 ben.lee 2007-10-26

看下源码才知道没做，不过查询速度还挺快的。下面的翻页如果要能向baidu。google那样就好了。

1 楼 ben.lee 2007-10-26

试用了一下好像上面的选择不能用啊。

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论