阅读更多

10顶
0踩

编程语言

原创新闻 庖丁中文分词示例应用paoding.net已上线使用

2007-10-26 09:14 by 见习记者 Qieqie 评论(3) 有7157人浏览
庖丁解牛是Javaeye的会员Qieqie开发的一套基于Lucene中文分词工具, 最近发布了一个在线演示版本.

地址:http://paoding.net

这是庖丁中文分词的示例应用。使用的分词器版本是2.0.4-alpha2(发布时间是2007-10-22日)。

----------------------------------------------------------
索引范围:
新浪博客,2007-9-27日统计的点击率最前的1000名博客地址。
paoding建立了这1000个用户从其创建博客到2007-9-26日的所有文章,以及部分博客的9月27日的文章

----------------------------------------------------------
重要数据摘要:
博客数: 1000
博客文章数: >30万篇
Lucene索引库个数: 1个
索引库状态: 已优化
索引库大小: 3.03G
操作系统: REHL4
查询效率: 没有不良体验


10
0
评论 共 3 条 请登录后发表评论
3 楼 yumi301 2009-09-16 10:29
访问不了了
2 楼 shawn427 2007-11-01 09:50
的确不错。
1 楼 rainsf 2007-10-26 13:20
Qieqie,好久不见,搜索速度很快,但没理由搜索时间全都是0吧?你做了缓存吗?能提供你搜索那部分的源代码参考下吗?

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

  • java 庖丁解牛中文分词_庖丁解牛"中文分词包

    http://code.google.com/p/paoding/Paoding Analysis摘要Paoding's Knives 中文分词具有极 高效率 和 高扩展性 。引入隐喻,采用完全的面向对象设计,构思先进。高效率:在PIII 1G内存个人机器上,1秒 可准确分词 ...

  • 各种中文分词工具的使用方法

    本文介绍jieba、HanLP、LAC、THULAC、NLPIR、spacy等多种常用的Python中文分词工具的简单使用方法。

  • 利用庖丁解牛工具进行中文分词

    关于如何使用庖丁解牛分词工具可参考:http://www.letiantian.me/2014-11-26-word-segmentation-paoding-analysis/ 该工具可实现自定义词典,对于有些特殊的词,比如明星名字林心如霍建华等,可构建词典以.dic为...

  • lucene java 庖丁解牛_Lucene3.3、Lucene3.4中文分词——庖丁解牛分词实例

    如果是Lucene3.0以上版本首先我们需要下载庖丁解牛最新源码并生成jar文件,我已经将最新源码和jar文件上传了:http://download.csdn.net/detail/a_2cai/3671164 ,可以下载,或者下载一个SVN客户端从...

  • 中文分词的应用 新浪和庖丁两种方式对比

    中文分词相比于英文难度要大得多,涉及到自然语言的理解和处理。分词也是文本挖掘中的关键技术之一,百度也是因为中文分词相比于google更优秀,才做到中文的检索结果更优。实际上新浪、百度云服务上很多开发者也开放...

  • paoding分词

    庖丁中文分词库是一个使用Java开发的,可结合到Lucene应用中的,为互联网、企业内部网使用的中文搜索引擎分词组件。Paoding填补了国内中文分词方面开源组件的空白,致力于此并希翼成为互联网网站首选的中文分词开源...

  • PHP-分词- paoding基于Lucene的最流行的分词法

    paoding :Lucene中文分词“庖丁解牛” Paoding Analysis imdict :imdict智能词典所采用的智能中文分词程序 mmseg4j : 用 Chih-Hao Tsai 的 MMSeg 算法 实现的中文分词器 ik :采用了特有的“正向迭代最细粒度...

  • Paoding Analyzer 庖丁 解牛 分词

    中文分词庖丁解牛 一般使用使用评估参考资料下载开始使用分词策略 效果体验 在命令行模式下执行analyzer.bat(windows)或analyzer.sh(linux)即可0u 显示帮助E:\Paoding-Analysis>analyzer.bat ?u 分词...

  • 中文分词方法汇总笔记

    中文分词方法和工具汇总笔记 从分词难点、分词方法:传统基于字典基于词典的分词方法、、基于机器学习的分词方法进行总结

  • java paoding_Java PaodingAnalyzer類代碼示例

    本文整理匯總了Java中net.paoding.analysis.analyzer.PaodingAnalyzer類的典型用法代碼示例。...Java PaodingAnalyzer使用的例子?那麽恭喜您, 這裏精選的類代碼示例或許可以為您提供幫助。PaodingAnalyzer類...

  • 比较热门好用的开源中文分词软件系统有哪些?

    对于我们每天打交道的中文来说,并没有类似英文空格的边界标志。而理解句子所包含的词语,则是理解汉语语句的第一步。汉语自动分词的任务,通俗地说,就是要由机器在文本中的词与词之间自动加上空格。 一提到自动...

  • paoding、imdict、mmseg4j、ik四种分词器的比较

    paoding :Lucene中文分词“庖丁解牛” Paoding Analysis imdict :imdict智能词典所采用的智能中文分词程序 mmseg4j : 用 Chih-Hao Tsai 的 MMSeg 算法 实现的中文分词器 ik :采用了特有的“正向迭代最...

  • paoding Lucene中文分词Paoding Analysis

    中文分词具有极 高效率 和 高扩展性 。引入隐喻,采用完全的面向对象设计,构思先进。 高效率:在PIII 1G内存个人机器上,1秒 可准确分词 100万 汉字。 采用基于 不限制个数 的词典文件对文章进行...

  • 庖丁中文分词入门(一) 效果体验

    zip download:http://code.google.com/p/paoding/downloads/list<br />svn: http://paoding.googlecode.com/svn/trunk/paoding-analysis/效果体验 使用者第一步最有可能的是想要体验了解庖丁的分词效果...

  • 细说中文分词

    完整的中文自然语言处理过程一般包括以下五种中文处理核心技术:分词、词性标注、命名实体识别、依存句法分析、语义分析。其中,分词是中文自然语言处理的基础,搜素...中文分词就是将中文语句中的词汇按照使用时的...

  • 中文分词学习总结

    中文分词(Chinese Word Segmentation) 指的是将一个汉字序列切分成一个一个单独的词。分词就是将连续的字序列按照一定的规范重新组合成词序列的过程。我们知道,在英文的行文中,单词之间是以空格作为自然分界符的,...

  • 使用 Simulink(R) 在 AWGN 信道上执行带穿孔的软判决维特比解码.rar

    1.版本:matlab2014/2019a/2024a 2.附赠案例数据可直接运行matlab程序。 3.代码特点:参数化编程、参数可方便更改、代码编程思路清晰、注释明细。 4.适用对象:计算机,电子信息工程、数学等专业的大学生课程设计、期末大作业和毕业设计。 替换数据可以直接使用,注释清楚,适合新手

  • 极化码的高斯近似过程,基于matlab平台.rar

    1.版本:matlab2014/2019a/2024a 2.附赠案例数据可直接运行matlab程序。 3.代码特点:参数化编程、参数可方便更改、代码编程思路清晰、注释明细。 4.适用对象:计算机,电子信息工程、数学等专业的大学生课程设计、期末大作业和毕业设计。 替换数据可以直接使用,注释清楚,适合新手

  • 广东省关于人工智能赋能千行百业的若干措施.docx

    广东省关于人工智能赋能千行百业的若干措施.docx

Global site tag (gtag.js) - Google Analytics