`
Qieqie
  • 浏览: 342315 次
  • 性别: Icon_minigender_1
  • 来自: 北京
文章分类
社区版块
存档分类
最新评论

庖丁中文分词示例应用paoding.net已上线使用

阅读更多
地址:http://paoding.net

这是庖丁中文分词的示例应用。使用的分词器版本是2.0.4-alpha2。
有关心庖丁中文分词的同学,可以通过访问http://paoding.net测试庖丁的搜索效果。

(2.0.4-alpha2发布时间是2007-10-22日)。

----------------------------------------------------------
索引范围:
新浪博客,2007-9-27日统计的点击率最前的1000名博客地址。
paoding建立了这1000个用户从其创建博客到2007-9-26日的所有文章,以及部分博客的9月27日的文章

----------------------------------------------------------
重要数据摘要:
博客数: 1000
博客文章数: >30万篇
Lucene索引库个数: 1个
索引库状态: 已优化
索引库大小: 3.03G
操作系统: REHL4
查询效率: 没有不良体验



分享到:
评论
15 楼 chenlb 2008-03-10  
不错,个人觉得比je好,支持
14 楼 bluepoint 2007-11-11  
特想了解下数据采集是怎么运作的!
13 楼 imjl 2007-10-27  
呵呵,我一般测试过了才会发表我自己看法。不会人云我亦云。

我也不会轻易加入邮件列表,我每天处理5-6个邮件列表。


我就看到他发了,还没做过测试,但他的数据看上去不错。所以复制过来。


12 楼 Qieqie 2007-10-26  
说了不一定相信,他是我兄弟,我们很经常在一起交流各种看法。

先谢谢支持。(然后开始严肃)

鼓励公开发帖/发向邮件列表提出对paoding或对其他人有益的质疑、疑问、球助、错误报告、建议(包括算法建议)
其它的,比如:情绪类的(如顶,支持,谢谢,不看好之类的),私人信息类,询问的等与以上加粗标志的类别不大的
站内消息,或私人邮件沟通会更好。


javaeye不让发求zhu,以上特写为“球助”--
11 楼 imjl 2007-10-26  
来自“猎图网 www.richmap.cn”基于IKAnalyzer分词算法的准商业化Lucene中文分词器。 1. 正向全切分算法,42万汉字字符/每秒的处理能力(IBM ThinkPad 酷睿I 1.6G 1G内存 WinXP) 2. 对数量词、地名、路名的优化处理 3. 对未知词汇采用自识别结合二元切分算法,确保搜索召回率正向全切分分词器:org.mira.lucene.analysis.IK_CAnalyzer(适合建索引时使用) 正向最大全切分分词器:org.mira.lucene.analysis.MIK_CAnalyzer(适合用户输入检索时使用)


这是我群里的一个人上传的附件介绍。

你可以就这个analyzer和你的比较下。。


link: http://lucene-group.group.iteye.com/topics/download/609d3434-e6bf-4d78-87e2-8dd15ad74524


你的我有空就会测试,,加油哦支持。
10 楼 Qieqie 2007-10-26  
to imjl:
您可以通过运行analyzer.bat后在paoding>提示符后输入:-f your_file_path (包括冒号)来了解庖丁对你提供的文件的分词速度。
您可以创建一个“很大很大”的文件来测试。
这是我现在在我的工作机器上的结果:
引用

paoding> :-f fubaba.txt -P no
read content from:xxx\fubaba.txt

        分词器net.paoding.analysis.analyzer.PaodingAnalyzer
        内容长度 1269656字符, 分 589351个词
        分词耗时 1781ms

环境:Notebook;Pentium 1.73GHz; WinXp Home;
fubaba.txt大小:2365KB

相同环境下,效率大概是CJKAnalyzer/StandardAnalyzer/ChineseAnalzyer的1/2到1/4。

to rainsf:
耗时的问题,不是0秒,而是int与double的问题没处理好的问题。
刚刚重启了Web容器了。
9 楼 imjl 2007-10-26  
rainsf 写道
imjl 写道
能说下索引时的一些数据信息吗?

比如索引多大的doc,速度多少,硬件资源的变化状况


最好拿一些论坛的数据,因为论坛的字符基本涵盖了大部分使用的。


Lucene索引一个Document基本上很快的,这个不用担心,如果你觉得批量索引慢,你可以split成多批,用多线程索引再Merge。或者分布到多台机器上去执行,参考Hadoop.



如果是千万数据和亿级数据呢?

我有自己的方式,不需要看其他了。


我只是关心分词的效率。
8 楼 rainsf 2007-10-26  
imjl 写道
能说下索引时的一些数据信息吗?

比如索引多大的doc,速度多少,硬件资源的变化状况


最好拿一些论坛的数据,因为论坛的字符基本涵盖了大部分使用的。


Lucene索引一个Document基本上很快的,这个不用担心,如果你觉得批量索引慢,你可以split成多批,用多线程索引再Merge。或者分布到多台机器上去执行,参考Hadoop.
7 楼 imjl 2007-10-26  
能说下索引时的一些数据信息吗?

比如索引多大的doc,速度多少,硬件资源的变化状况


最好拿一些论坛的数据,因为论坛的字符基本涵盖了大部分使用的。
6 楼 imjl 2007-10-26  
呵呵,看看。
5 楼 rainsf 2007-10-26  
Qieqie,好久不见,搜索速度很快啊,但没理由搜索时间全都是0吧?你做了缓存吗?能提供你搜索那部分的源代码参考下吗?如果可以,作为庖丁的一个示例发布那是非常好的。

4 楼 rainsf 2007-10-26  
woodream 写道
感觉不错~ 虽然搜索内容有限!不知道 是否开源,我主要想看看 您的机器人怎么运作的!嘻嘻~


机器人可以看Nutch,这里面有Googel的影子,如GFS,MapReduce。
3 楼 woodream 2007-10-26  
感觉不错~ 虽然搜索内容有限!不知道 是否开源,我主要想看看 您的机器人怎么运作的!嘻嘻~
2 楼 ben.lee 2007-10-26  
看下源码才知道没做,不过查询速度还挺快的。下面的翻页如果要能向baidu。google那样就好了。
1 楼 ben.lee 2007-10-26  
试用了一下好像上面的选择不能用啊。

相关推荐

    庖丁分词jar包和dic目录

    - `Paoding中文分词参考手册.htm`:这可能是庖丁分词的用户手册或开发者指南,包含了详细的操作步骤、使用示例以及API文档,帮助用户理解和使用该工具。 - `lucene-core-3.1.0.jar`:这是Apache Lucene的核心库,一...

    庖丁解牛分词 java包

    3. `Paoding中文分词参考手册.htm`: 这是一个HTML文档,包含了庖丁解牛分词的使用指南和API文档,对于学习和使用该工具至关重要。 4. `paoding-analysis.jar`: 这是核心的Java类库文件,包含了庖丁解牛分词的实现...

    Paoding中文分词

    标题“Paoding中文分词”指的是一个专门用于处理中文文本的分词工具,名为“庖丁解牛中文分词”。在自然语言处理领域,分词是预处理的重要步骤,它将连续的汉字序列切分成有意义的词汇单元,便于后续的文本分析和...

    paoding(庖丁解牛)

    ### Paoding庖丁解牛:中文分词库与Nutch集成详解 #### 一、Paoding庖丁解牛概述 Paoding庖丁解牛是一款基于Java语言开发的中文分词库,它能够作为中文搜索引擎的一个关键组件进行部署,特别是在Lucene这样的搜索...

    paoding 中文分词

    "Paoding 中文分词"是一款专为处理中文文本而设计的开源分词工具,它在中文信息处理领域具有较高的知名度。...Paoding 分词提供详尽的文档和示例代码,可以帮助你更好地理解和使用这个强大的工具。

    paoding-analysis-2.0.4-alpha2.zip_java 分词_paoding

    Paoding Analysis(也称为“庖丁分析”)是一款由李明开发的高性能Java分词系统,它旨在解决中文文本处理中的分词问题。Paoding Analysis的特点在于其高效率和自适应性,能够根据不同的应用场景进行定制化配置,满足...

    paoding-analysis-2.0.1(UTF-8).zip_Java 8_paoding-analysis jar_pa

    “庖丁分析”(Paoding Analysis),又称为“庖丁分词”,是由李明创建的一个开源项目,它在处理中文文本时,能精准地将句子拆分成一个个独立的词汇,这对于信息检索、文本挖掘、情感分析等应用场景至关重要。...

    庖丁解牛工具

    "庖丁解牛工具"是一款基于Java开发的文本分析工具,尤其在中文分词领域有着广泛的应用。这个工具的名字来源于中国古代寓言故事“庖丁解牛”,寓意对文本的精细处理和深入理解,就像庖丁对牛肉的熟练切割一样。在IT...

Global site tag (gtag.js) - Google Analytics