阅读更多

10顶
0踩

编程语言

原创新闻 庖丁中文分词示例应用paoding.net已上线使用

2007-10-26 09:14 by 见习记者 Qieqie 评论(3) 有7150人浏览
庖丁解牛是Javaeye的会员Qieqie开发的一套基于Lucene中文分词工具, 最近发布了一个在线演示版本.

地址:http://paoding.net

这是庖丁中文分词的示例应用。使用的分词器版本是2.0.4-alpha2(发布时间是2007-10-22日)。

----------------------------------------------------------
索引范围:
新浪博客,2007-9-27日统计的点击率最前的1000名博客地址。
paoding建立了这1000个用户从其创建博客到2007-9-26日的所有文章,以及部分博客的9月27日的文章

----------------------------------------------------------
重要数据摘要:
博客数: 1000
博客文章数: >30万篇
Lucene索引库个数: 1个
索引库状态: 已优化
索引库大小: 3.03G
操作系统: REHL4
查询效率: 没有不良体验


10
0
评论 共 3 条 请登录后发表评论
3 楼 yumi301 2009-09-16 10:29
访问不了了
2 楼 shawn427 2007-11-01 09:50
的确不错。
1 楼 rainsf 2007-10-26 13:20
Qieqie,好久不见,搜索速度很快,但没理由搜索时间全都是0吧?你做了缓存吗?能提供你搜索那部分的源代码参考下吗?

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

  • java 庖丁解牛中文分词_庖丁解牛"中文分词包

    http://code.google.com/p/paoding/Paoding Analysis摘要Paoding's Knives 中文分词具有极 高效率 和 高扩展性 。引入隐喻,采用完全的面向对象设计,构思先进。高效率:在PIII 1G内存个人机器上,1秒 可准确分词 ...

  • 各种中文分词工具的使用方法

    本文介绍jieba、HanLP、LAC、THULAC、NLPIR、spacy等多种常用的Python中文分词工具的简单使用方法。

  • 利用庖丁解牛工具进行中文分词

    关于如何使用庖丁解牛分词工具可参考:http://www.letiantian.me/2014-11-26-word-segmentation-paoding-analysis/ 该工具可实现自定义词典,对于有些特殊的词,比如明星名字林心如霍建华等,可构建词典以.dic为...

  • lucene java 庖丁解牛_Lucene3.3、Lucene3.4中文分词——庖丁解牛分词实例

    如果是Lucene3.0以上版本首先我们需要下载庖丁解牛最新源码并生成jar文件,我已经将最新源码和jar文件上传了:http://download.csdn.net/detail/a_2cai/3671164 ,可以下载,或者下载一个SVN客户端从...

  • 中文分词的应用 新浪和庖丁两种方式对比

    中文分词相比于英文难度要大得多,涉及到自然语言的理解和处理。分词也是文本挖掘中的关键技术之一,百度也是因为中文分词相比于google更优秀,才做到中文的检索结果更优。实际上新浪、百度云服务上很多开发者也开放...

  • paoding分词

    庖丁中文分词库是一个使用Java开发的,可结合到Lucene应用中的,为互联网、企业内部网使用的中文搜索引擎分词组件。Paoding填补了国内中文分词方面开源组件的空白,致力于此并希翼成为互联网网站首选的中文分词开源...

  • PHP-分词- paoding基于Lucene的最流行的分词法

    paoding :Lucene中文分词“庖丁解牛” Paoding Analysis imdict :imdict智能词典所采用的智能中文分词程序 mmseg4j : 用 Chih-Hao Tsai 的 MMSeg 算法 实现的中文分词器 ik :采用了特有的“正向迭代最细粒度...

  • Paoding Analyzer 庖丁 解牛 分词

    中文分词庖丁解牛 一般使用使用评估参考资料下载开始使用分词策略 效果体验 在命令行模式下执行analyzer.bat(windows)或analyzer.sh(linux)即可0u 显示帮助E:\Paoding-Analysis>analyzer.bat ?u 分词...

  • 中文分词方法汇总笔记

    中文分词方法和工具汇总笔记 从分词难点、分词方法:传统基于字典基于词典的分词方法、、基于机器学习的分词方法进行总结

  • java paoding_Java PaodingAnalyzer類代碼示例

    本文整理匯總了Java中net.paoding.analysis.analyzer.PaodingAnalyzer類的典型用法代碼示例。...Java PaodingAnalyzer使用的例子?那麽恭喜您, 這裏精選的類代碼示例或許可以為您提供幫助。PaodingAnalyzer類...

  • 比较热门好用的开源中文分词软件系统有哪些?

    对于我们每天打交道的中文来说,并没有类似英文空格的边界标志。而理解句子所包含的词语,则是理解汉语语句的第一步。汉语自动分词的任务,通俗地说,就是要由机器在文本中的词与词之间自动加上空格。 一提到自动...

  • paoding、imdict、mmseg4j、ik四种分词器的比较

    paoding :Lucene中文分词“庖丁解牛” Paoding Analysis imdict :imdict智能词典所采用的智能中文分词程序 mmseg4j : 用 Chih-Hao Tsai 的 MMSeg 算法 实现的中文分词器 ik :采用了特有的“正向迭代最...

  • paoding Lucene中文分词Paoding Analysis

    中文分词具有极 高效率 和 高扩展性 。引入隐喻,采用完全的面向对象设计,构思先进。 高效率:在PIII 1G内存个人机器上,1秒 可准确分词 100万 汉字。 采用基于 不限制个数 的词典文件对文章进行...

  • 庖丁中文分词入门(一) 效果体验

    zip download:http://code.google.com/p/paoding/downloads/list<br />svn: http://paoding.googlecode.com/svn/trunk/paoding-analysis/效果体验 使用者第一步最有可能的是想要体验了解庖丁的分词效果...

  • 细说中文分词

    完整的中文自然语言处理过程一般包括以下五种中文处理核心技术:分词、词性标注、命名实体识别、依存句法分析、语义分析。其中,分词是中文自然语言处理的基础,搜素...中文分词就是将中文语句中的词汇按照使用时的...

  • 中文分词学习总结

    中文分词(Chinese Word Segmentation) 指的是将一个汉字序列切分成一个一个单独的词。分词就是将连续的字序列按照一定的规范重新组合成词序列的过程。我们知道,在英文的行文中,单词之间是以空格作为自然分界符的,...

  • 5116-微信小程序电影院订票选座系统设计及实现+ssm(源码+数据库+lun文).zip

    本系统主要针对计算机相关专业的正在做毕业设计的学生和需要项目实战练习的学习者,可作为毕业设计、课程设计、期末大作业。本系统主要针对计算机相关专业的正在做毕业设计的学生和需要项目实战练习的学习者,可作为毕业设计、课程设计、期末大作业。本系统主要针对计算机相关专业的正在做毕业设计的学生和需要项目实战练习的学习者,可作为毕业设计、课程设计、期末大作业。本系统主要针对计算机相关专业的正在做毕业设计的学生和需要项目实战练习的学习者,可作为毕业设计、课程设计、期末大作业。

  • JavaScript 中的 `Array.prototype.filter` 方法全解析

    在 JavaScript 编程中,处理数组是一项基本而重要的任务。数组的过滤操作是其中的一个常见需求,Array.prototype.filter 方法为此提供了强大的支持。本文将深入探讨 Array.prototype.filter 方法的工作原理、使用场景、代码示例以及与其他数组方法的比较。 Array.prototype.filter 是 JavaScript 中处理数组的强大工具,它允许开发者以声明式的方式轻松筛选出符合特定条件的元素。通过结合使用 Array.prototype.filter 和其他数组方法,可以解决各种复杂的数据筛选问题。 通过本文的详细介绍和示例代码,你应该能够掌握 Array.prototype.filter 的工作原理,并能够在实际开发中灵活运用它来处理数组数据。此外,了解其与 Array.prototype.map 和 Array.prototype.reduce 的结合使用,可以帮助你更好地编写高效且易于维护的代码。

  • 5108-微信小程序的书橱+ssm(源码+数据库+lun文).zip

    本系统主要针对计算机相关专业的正在做毕业设计的学生和需要项目实战练习的学习者,可作为毕业设计、课程设计、期末大作业。本系统主要针对计算机相关专业的正在做毕业设计的学生和需要项目实战练习的学习者,可作为毕业设计、课程设计、期末大作业。本系统主要针对计算机相关专业的正在做毕业设计的学生和需要项目实战练习的学习者,可作为毕业设计、课程设计、期末大作业。本系统主要针对计算机相关专业的正在做毕业设计的学生和需要项目实战练习的学习者,可作为毕业设计、课程设计、期末大作业。

Global site tag (gtag.js) - Google Analytics