论坛首页 Java企业应用论坛

庖丁中文分词示例应用paoding.net已上线使用

浏览 8170 次
精华帖 (0) :: 良好帖 (0) :: 新手帖 (0) :: 隐藏帖 (0)
作者 正文
   发表时间:2007-10-26  
地址:http://paoding.net

这是庖丁中文分词的示例应用。使用的分词器版本是2.0.4-alpha2。
有关心庖丁中文分词的同学,可以通过访问http://paoding.net测试庖丁的搜索效果。

(2.0.4-alpha2发布时间是2007-10-22日)。

----------------------------------------------------------
索引范围:
新浪博客,2007-9-27日统计的点击率最前的1000名博客地址。
paoding建立了这1000个用户从其创建博客到2007-9-26日的所有文章,以及部分博客的9月27日的文章

----------------------------------------------------------
重要数据摘要:
博客数: 1000
博客文章数: >30万篇
Lucene索引库个数: 1个
索引库状态: 已优化
索引库大小: 3.03G
操作系统: REHL4
查询效率: 没有不良体验



   发表时间:2007-10-26  
试用了一下好像上面的选择不能用啊。
0 请登录后投票
   发表时间:2007-10-26  
看下源码才知道没做,不过查询速度还挺快的。下面的翻页如果要能向baidu。google那样就好了。
0 请登录后投票
   发表时间:2007-10-26  
感觉不错~ 虽然搜索内容有限!不知道 是否开源,我主要想看看 您的机器人怎么运作的!嘻嘻~
0 请登录后投票
   发表时间:2007-10-26  
woodream 写道
感觉不错~ 虽然搜索内容有限!不知道 是否开源,我主要想看看 您的机器人怎么运作的!嘻嘻~


机器人可以看Nutch,这里面有Googel的影子,如GFS,MapReduce。
0 请登录后投票
   发表时间:2007-10-26  
Qieqie,好久不见,搜索速度很快啊,但没理由搜索时间全都是0吧?你做了缓存吗?能提供你搜索那部分的源代码参考下吗?如果可以,作为庖丁的一个示例发布那是非常好的。

0 请登录后投票
   发表时间:2007-10-26  
能说下索引时的一些数据信息吗?

比如索引多大的doc,速度多少,硬件资源的变化状况


最好拿一些论坛的数据,因为论坛的字符基本涵盖了大部分使用的。
0 请登录后投票
   发表时间:2007-10-26  
imjl 写道
能说下索引时的一些数据信息吗?

比如索引多大的doc,速度多少,硬件资源的变化状况


最好拿一些论坛的数据,因为论坛的字符基本涵盖了大部分使用的。


Lucene索引一个Document基本上很快的,这个不用担心,如果你觉得批量索引慢,你可以split成多批,用多线程索引再Merge。或者分布到多台机器上去执行,参考Hadoop.
0 请登录后投票
   发表时间:2007-10-26  
rainsf 写道
imjl 写道
能说下索引时的一些数据信息吗?

比如索引多大的doc,速度多少,硬件资源的变化状况


最好拿一些论坛的数据,因为论坛的字符基本涵盖了大部分使用的。


Lucene索引一个Document基本上很快的,这个不用担心,如果你觉得批量索引慢,你可以split成多批,用多线程索引再Merge。或者分布到多台机器上去执行,参考Hadoop.



如果是千万数据和亿级数据呢?

我有自己的方式,不需要看其他了。


我只是关心分词的效率。
0 请登录后投票
   发表时间:2007-10-26  
to imjl:
您可以通过运行analyzer.bat后在paoding>提示符后输入:-f your_file_path (包括冒号)来了解庖丁对你提供的文件的分词速度。
您可以创建一个“很大很大”的文件来测试。
这是我现在在我的工作机器上的结果:
引用

paoding> :-f fubaba.txt -P no
read content from:xxx\fubaba.txt

        分词器net.paoding.analysis.analyzer.PaodingAnalyzer
        内容长度 1269656字符, 分 589351个词
        分词耗时 1781ms

环境:Notebook;Pentium 1.73GHz; WinXp Home;
fubaba.txt大小:2365KB

相同环境下,效率大概是CJKAnalyzer/StandardAnalyzer/ChineseAnalzyer的1/2到1/4。

to rainsf:
耗时的问题,不是0秒,而是int与double的问题没处理好的问题。
刚刚重启了Web容器了。
0 请登录后投票
论坛首页 Java企业应用版

跳转论坛:
Global site tag (gtag.js) - Google Analytics