`
Qieqie
  • 浏览: 339982 次
  • 性别: Icon_minigender_1
  • 来自: 北京
文章分类
社区版块
存档分类
最新评论

庖丁中文分词示例应用paoding.net已上线使用

阅读更多
地址:http://paoding.net

这是庖丁中文分词的示例应用。使用的分词器版本是2.0.4-alpha2。
有关心庖丁中文分词的同学,可以通过访问http://paoding.net测试庖丁的搜索效果。

(2.0.4-alpha2发布时间是2007-10-22日)。

----------------------------------------------------------
索引范围:
新浪博客,2007-9-27日统计的点击率最前的1000名博客地址。
paoding建立了这1000个用户从其创建博客到2007-9-26日的所有文章,以及部分博客的9月27日的文章

----------------------------------------------------------
重要数据摘要:
博客数: 1000
博客文章数: >30万篇
Lucene索引库个数: 1个
索引库状态: 已优化
索引库大小: 3.03G
操作系统: REHL4
查询效率: 没有不良体验



分享到:
评论
15 楼 chenlb 2008-03-10  
不错,个人觉得比je好,支持
14 楼 bluepoint 2007-11-11  
特想了解下数据采集是怎么运作的!
13 楼 imjl 2007-10-27  
呵呵,我一般测试过了才会发表我自己看法。不会人云我亦云。

我也不会轻易加入邮件列表,我每天处理5-6个邮件列表。


我就看到他发了,还没做过测试,但他的数据看上去不错。所以复制过来。


12 楼 Qieqie 2007-10-26  
说了不一定相信,他是我兄弟,我们很经常在一起交流各种看法。

先谢谢支持。(然后开始严肃)

鼓励公开发帖/发向邮件列表提出对paoding或对其他人有益的质疑、疑问、球助、错误报告、建议(包括算法建议)
其它的,比如:情绪类的(如顶,支持,谢谢,不看好之类的),私人信息类,询问的等与以上加粗标志的类别不大的
站内消息,或私人邮件沟通会更好。


javaeye不让发求zhu,以上特写为“球助”--
11 楼 imjl 2007-10-26  
来自“猎图网 www.richmap.cn”基于IKAnalyzer分词算法的准商业化Lucene中文分词器。 1. 正向全切分算法,42万汉字字符/每秒的处理能力(IBM ThinkPad 酷睿I 1.6G 1G内存 WinXP) 2. 对数量词、地名、路名的优化处理 3. 对未知词汇采用自识别结合二元切分算法,确保搜索召回率正向全切分分词器:org.mira.lucene.analysis.IK_CAnalyzer(适合建索引时使用) 正向最大全切分分词器:org.mira.lucene.analysis.MIK_CAnalyzer(适合用户输入检索时使用)


这是我群里的一个人上传的附件介绍。

你可以就这个analyzer和你的比较下。。


link: http://lucene-group.group.iteye.com/topics/download/609d3434-e6bf-4d78-87e2-8dd15ad74524


你的我有空就会测试,,加油哦支持。
10 楼 Qieqie 2007-10-26  
to imjl:
您可以通过运行analyzer.bat后在paoding>提示符后输入:-f your_file_path (包括冒号)来了解庖丁对你提供的文件的分词速度。
您可以创建一个“很大很大”的文件来测试。
这是我现在在我的工作机器上的结果:
引用

paoding> :-f fubaba.txt -P no
read content from:xxx\fubaba.txt

        分词器net.paoding.analysis.analyzer.PaodingAnalyzer
        内容长度 1269656字符, 分 589351个词
        分词耗时 1781ms

环境:Notebook;Pentium 1.73GHz; WinXp Home;
fubaba.txt大小:2365KB

相同环境下,效率大概是CJKAnalyzer/StandardAnalyzer/ChineseAnalzyer的1/2到1/4。

to rainsf:
耗时的问题,不是0秒,而是int与double的问题没处理好的问题。
刚刚重启了Web容器了。
9 楼 imjl 2007-10-26  
rainsf 写道
imjl 写道
能说下索引时的一些数据信息吗?

比如索引多大的doc,速度多少,硬件资源的变化状况


最好拿一些论坛的数据,因为论坛的字符基本涵盖了大部分使用的。


Lucene索引一个Document基本上很快的,这个不用担心,如果你觉得批量索引慢,你可以split成多批,用多线程索引再Merge。或者分布到多台机器上去执行,参考Hadoop.



如果是千万数据和亿级数据呢?

我有自己的方式,不需要看其他了。


我只是关心分词的效率。
8 楼 rainsf 2007-10-26  
imjl 写道
能说下索引时的一些数据信息吗?

比如索引多大的doc,速度多少,硬件资源的变化状况


最好拿一些论坛的数据,因为论坛的字符基本涵盖了大部分使用的。


Lucene索引一个Document基本上很快的,这个不用担心,如果你觉得批量索引慢,你可以split成多批,用多线程索引再Merge。或者分布到多台机器上去执行,参考Hadoop.
7 楼 imjl 2007-10-26  
能说下索引时的一些数据信息吗?

比如索引多大的doc,速度多少,硬件资源的变化状况


最好拿一些论坛的数据,因为论坛的字符基本涵盖了大部分使用的。
6 楼 imjl 2007-10-26  
呵呵,看看。
5 楼 rainsf 2007-10-26  
Qieqie,好久不见,搜索速度很快啊,但没理由搜索时间全都是0吧?你做了缓存吗?能提供你搜索那部分的源代码参考下吗?如果可以,作为庖丁的一个示例发布那是非常好的。

4 楼 rainsf 2007-10-26  
woodream 写道
感觉不错~ 虽然搜索内容有限!不知道 是否开源,我主要想看看 您的机器人怎么运作的!嘻嘻~


机器人可以看Nutch,这里面有Googel的影子,如GFS,MapReduce。
3 楼 woodream 2007-10-26  
感觉不错~ 虽然搜索内容有限!不知道 是否开源,我主要想看看 您的机器人怎么运作的!嘻嘻~
2 楼 ben.lee 2007-10-26  
看下源码才知道没做,不过查询速度还挺快的。下面的翻页如果要能向baidu。google那样就好了。
1 楼 ben.lee 2007-10-26  
试用了一下好像上面的选择不能用啊。

相关推荐

    庖丁中文分词在VB.NET的使用例子方法

    庖丁中文分词库在VB.NET中的应用与实践 一、庖丁中文分词简介 庖丁是一款开源的中文分词工具,它基于统计语言模型和大规模语料库,能够高效准确地对中文文本进行切分,将连续的汉字序列分割成一个个具有独立意义的...

    lucene中文分词器(paoding解牛)

    《Lucene中文分词器——Paoding解牛详解》 在中文信息检索领域,分词是至关重要的一环,它能够将连续的汉字序列切割成具有独立意义的词语,为后续的索引和查询提供基础。Lucene作为Java最著名的全文搜索引擎库,其...

    庖丁解牛纵向切入asp.net3.5控件和组件开发技术(代码)

    ASP.NET 3.5是微软开发的一个强大的Web应用程序框架,用于构建动态、数据驱动的Web应用。在这个框架中,控件和组件是构建用户界面的关键元素。本文将深入剖析ASP.NET 3.5中的控件和组件开发技术,通过"庖丁解牛"的...

    paoding analysis 3.0.1 jar (庖丁解牛分词器)

    由于庖丁官方目前提供可下载尚不支持Lucene 3.0以上版本。因此作者对paoding进行重新编译,使其与最新Lucene 3.0.1版本适用。 Latest paoding 3.0.1 for lucene 3.0.1 使用说明: 先下载2.0.4的版本(h t t p : / ...

    庖丁解牛 纵向切入ASP.NET 3.5控件和组件开发 part2

    8.4 客户端控件应用示例 323 8.4.1 封装js客户端对象 323 8.4.2 封装htc客户端对象 343 8.4.3 在线签名控件示例应用 371 8.5 常用的一些javascript框架 385 8.6 本章总结 387 第9章 定制用户控件 388 9.1 ...

    基于Lucene的中文分词器代码paoding,IK,imdict,mmseg4j

    1. Paoding(庖丁)分词器: Paoding是一款高性能的中文分词器,设计目标是提供简单易用、快速准确的分词服务。它采用了高效的正向最大匹配算法,并且支持自定义词典,可以灵活地处理新词汇。Paoding还提供了对UTF-...

    庖丁解牛—纵向切入ASP.NET3.5控件和组件开发技术(pdf).rar

    《庖丁解牛—纵向切入ASP.NET 3.5控件和组件开发技术》是一本深入探讨ASP.NET 3.5平台下控件与组件开发的专业书籍。此书以其独特的"庖丁解牛"比喻,旨在帮助开发者们精确、深入地理解和掌握控件和组件的开发技巧。...

    中文分词器Paoding(庖丁)

    很好用的中文分词器,能很好的与搜索引擎框架整合,此jar兼容支持Lucene3.0以上版本。

    庖丁分词jar包和dic目录

    - `Paoding中文分词参考手册.htm`:这可能是庖丁分词的用户手册或开发者指南,包含了详细的操作步骤、使用示例以及API文档,帮助用户理解和使用该工具。 - `lucene-core-3.1.0.jar`:这是Apache Lucene的核心库,一...

    庖丁解牛 中文分词工具

    分词是中文文本处理的基石,因为它能将连续的汉字序列划分为具有语义意义的单元,便于后续的分析和应用。 在"庖丁解牛"中,用户可以通过运行`analyzer.bat`程序来测试和查看分词结果。这是一个便捷的交互方式,允许...

    ASP.NET3.5庖丁解牛示例源码

    "ASP.NET 3.5庖丁解牛示例源码"是针对ASP.NET 3.5开发的一系列实例代码,旨在帮助开发者深入理解和掌握该框架的核心概念和技术。这些示例可能涵盖了页面生命周期、控件事件处理、数据访问、状态管理、用户控件、母版...

    中文搜索分词lucene包+paoding包

    Lucene和Paoding是两个广泛使用的开源工具,它们专门用于实现高效、准确的中文分词。 Lucene是一个强大的全文检索库,由Apache软件基金会开发。它提供了索引和搜索文本的能力,使得开发者能够快速构建自己的搜索...

    庖丁分词jar包

    描述“庖丁分词的jar包”进一步确认了该文件的用途,即它是庖丁分词的可执行代码包,意味着开发人员可以利用这个jar包在自己的应用中实现中文文本的分词功能。 标签“庖丁分词”是一个关键词,标识了这个软件工具的...

    lucene中文分词(庖丁解牛)庖丁分词

    《Lucene中文分词——庖丁解牛》 在自然语言处理领域,中文分词是基础且关键的一环。在Java开发中,Apache Lucene是一个强大的全文搜索引擎库,但默认并不支持中文,这就需要借助第三方分词工具。本文将深入探讨...

    庖丁分词.jar

    庖丁分词.jar 庖丁分词.jar 庖丁分词.jar 庖丁分词.jar

    paoding 分词

    **中文分词技术详解——以paoding为例** 中文分词是自然语言处理中的基础步骤,对于中文文本的理解和分析至关重要。在Java领域中,paoding(又称“庖丁”)是一个高效、灵活的中文分词库,专为处理大规模中文文本而...

    C#庖丁解牛--asp.net开发

    《C#庖丁解牛——ASP.NET开发》是一本深入探讨C#编程语言与ASP.NET 3.5框架结合使用的专业书籍。通过“庖丁解牛”的比喻,作者旨在引导读者像古代名厨庖丁一样,精准而熟练地掌握ASP.NET 3.5中的控件和组件开发技术...

    庖丁解牛 纵向切入ASP.NET 3.5控件和组件开完整版本part1

    庖丁解牛 纵向切入ASP.NET 3.5控件和组件开完整版本part1

    庖丁解牛 纵向切入asp.net3.5控件和组件开发技术 代码

    ASP.NET 3.5是微软.NET Framework 3.5框架下的Web开发平台,它提供了一系列强大的控件和组件,使得开发者能够快速构建功能丰富的Web应用程序。郑岩的《庖丁解牛 纵向切入asp.net3.5控件和组件开发技术》一书,深入浅...

    庖丁解牛 纵向切入ASP.NET 3.5控件和组件开发(完整版本)part2

    庖丁解牛 纵向切入ASP.NET 3.5控件和组件开发(完整版本)part2

Global site tag (gtag.js) - Google Analytics