精华帖 (0) :: 良好帖 (0) :: 新手帖 (0) :: 隐藏帖 (0)
|
|
---|---|
作者 | 正文 |
发表时间:2007-10-26
http://paoding.net
地址:这是庖丁中文分词的示例应用。使用的分词器版本是2.0.4-alpha2。 有关心庖丁中文分词的同学,可以通过访问http://paoding.net测试庖丁的搜索效果。 (2.0.4-alpha2发布时间是2007-10-22日)。 ---------------------------------------------------------- 索引范围: 新浪博客,2007-9-27日统计的点击率最前的1000名博客地址。 paoding建立了这1000个用户从其创建博客到2007-9-26日的所有文章,以及部分博客的9月27日的文章 ---------------------------------------------------------- 重要数据摘要: 博客数: 1000 博客文章数: >30万篇 Lucene索引库个数: 1个 索引库状态: 已优化 索引库大小: 3.03G 操作系统: REHL4 查询效率: 没有不良体验 声明:ITeye文章版权属于作者,受法律保护。没有作者书面许可不得转载。
推荐链接
|
|
返回顶楼 | |
发表时间:2007-10-26
试用了一下好像上面的选择不能用啊。
|
|
返回顶楼 | |
发表时间:2007-10-26
看下源码才知道没做,不过查询速度还挺快的。下面的翻页如果要能向baidu。google那样就好了。
|
|
返回顶楼 | |
发表时间:2007-10-26
感觉不错~ 虽然搜索内容有限!不知道 是否开源,我主要想看看 您的机器人怎么运作的!嘻嘻~
|
|
返回顶楼 | |
发表时间:2007-10-26
woodream 写道 感觉不错~ 虽然搜索内容有限!不知道 是否开源,我主要想看看 您的机器人怎么运作的!嘻嘻~
机器人可以看Nutch,这里面有Googel的影子,如GFS,MapReduce。 |
|
返回顶楼 | |
发表时间:2007-10-26
Qieqie,好久不见,搜索速度很快啊,但没理由搜索时间全都是0吧?你做了缓存吗?能提供你搜索那部分的源代码参考下吗?如果可以,作为庖丁的一个示例发布那是非常好的。
|
|
返回顶楼 | |
发表时间:2007-10-26
能说下索引时的一些数据信息吗?
比如索引多大的doc,速度多少,硬件资源的变化状况 最好拿一些论坛的数据,因为论坛的字符基本涵盖了大部分使用的。 |
|
返回顶楼 | |
发表时间:2007-10-26
imjl 写道 能说下索引时的一些数据信息吗?
比如索引多大的doc,速度多少,硬件资源的变化状况 最好拿一些论坛的数据,因为论坛的字符基本涵盖了大部分使用的。 Lucene索引一个Document基本上很快的,这个不用担心,如果你觉得批量索引慢,你可以split成多批,用多线程索引再Merge。或者分布到多台机器上去执行,参考Hadoop. |
|
返回顶楼 | |
发表时间:2007-10-26
rainsf 写道 imjl 写道 能说下索引时的一些数据信息吗?
比如索引多大的doc,速度多少,硬件资源的变化状况 最好拿一些论坛的数据,因为论坛的字符基本涵盖了大部分使用的。 Lucene索引一个Document基本上很快的,这个不用担心,如果你觉得批量索引慢,你可以split成多批,用多线程索引再Merge。或者分布到多台机器上去执行,参考Hadoop. 如果是千万数据和亿级数据呢? 我有自己的方式,不需要看其他了。 我只是关心分词的效率。 |
|
返回顶楼 | |
发表时间:2007-10-26
to imjl:
您可以通过运行analyzer.bat后在paoding>提示符后输入:-f your_file_path (包括冒号)来了解庖丁对你提供的文件的分词速度。 您可以创建一个“很大很大”的文件来测试。 这是我现在在我的工作机器上的结果: 引用 paoding> :-f fubaba.txt -P no read content from:xxx\fubaba.txt 分词器net.paoding.analysis.analyzer.PaodingAnalyzer 内容长度 1269656字符, 分 589351个词 分词耗时 1781ms 环境:Notebook;Pentium 1.73GHz; WinXp Home; fubaba.txt大小:2365KB 相同环境下,效率大概是CJKAnalyzer/StandardAnalyzer/ChineseAnalzyer的1/2到1/4。 to rainsf: 耗时的问题,不是0秒,而是int与double的问题没处理好的问题。 刚刚重启了Web容器了。 |
|
返回顶楼 | |