阅读更多

10顶
0踩

编程语言

原创新闻 庖丁中文分词示例应用paoding.net已上线使用

2007-10-26 09:14 by 见习记者 Qieqie 评论(3) 有7159人浏览
庖丁解牛是Javaeye的会员Qieqie开发的一套基于Lucene中文分词工具, 最近发布了一个在线演示版本.

地址:http://paoding.net

这是庖丁中文分词的示例应用。使用的分词器版本是2.0.4-alpha2(发布时间是2007-10-22日)。

----------------------------------------------------------
索引范围:
新浪博客,2007-9-27日统计的点击率最前的1000名博客地址。
paoding建立了这1000个用户从其创建博客到2007-9-26日的所有文章,以及部分博客的9月27日的文章

----------------------------------------------------------
重要数据摘要:
博客数: 1000
博客文章数: >30万篇
Lucene索引库个数: 1个
索引库状态: 已优化
索引库大小: 3.03G
操作系统: REHL4
查询效率: 没有不良体验


10
0
评论 共 3 条 请登录后发表评论
3 楼 yumi301 2009-09-16 10:29
访问不了了
2 楼 shawn427 2007-11-01 09:50
的确不错。
1 楼 rainsf 2007-10-26 13:20
Qieqie,好久不见,搜索速度很快,但没理由搜索时间全都是0吧?你做了缓存吗?能提供你搜索那部分的源代码参考下吗?

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

  • java 庖丁解牛中文分词_庖丁解牛"中文分词包

    http://code.google.com/p/paoding/Paoding Analysis摘要Paoding's Knives 中文分词具有极 高效率 和 高扩展性 。引入隐喻,采用完全的面向对象设计,构思先进。高效率:在PIII 1G内存个人机器上,1秒 可准确分词 ...

  • 各种中文分词工具的使用方法

    本文介绍jieba、HanLP、LAC、THULAC、NLPIR、spacy等多种常用的Python中文分词工具的简单使用方法。

  • 利用庖丁解牛工具进行中文分词

    关于如何使用庖丁解牛分词工具可参考:http://www.letiantian.me/2014-11-26-word-segmentation-paoding-analysis/ 该工具可实现自定义词典,对于有些特殊的词,比如明星名字林心如霍建华等,可构建词典以.dic为...

  • lucene java 庖丁解牛_Lucene3.3、Lucene3.4中文分词——庖丁解牛分词实例

    如果是Lucene3.0以上版本首先我们需要下载庖丁解牛最新源码并生成jar文件,我已经将最新源码和jar文件上传了:http://download.csdn.net/detail/a_2cai/3671164 ,可以下载,或者下载一个SVN客户端从...

  • 中文分词的应用 新浪和庖丁两种方式对比

    中文分词相比于英文难度要大得多,涉及到自然语言的理解和处理。分词也是文本挖掘中的关键技术之一,百度也是因为中文分词相比于google更优秀,才做到中文的检索结果更优。实际上新浪、百度云服务上很多开发者也开放...

  • paoding分词

    庖丁中文分词库是一个使用Java开发的,可结合到Lucene应用中的,为互联网、企业内部网使用的中文搜索引擎分词组件。Paoding填补了国内中文分词方面开源组件的空白,致力于此并希翼成为互联网网站首选的中文分词开源...

  • PHP-分词- paoding基于Lucene的最流行的分词法

    paoding :Lucene中文分词“庖丁解牛” Paoding Analysis imdict :imdict智能词典所采用的智能中文分词程序 mmseg4j : 用 Chih-Hao Tsai 的 MMSeg 算法 实现的中文分词器 ik :采用了特有的“正向迭代最细粒度...

  • Paoding Analyzer 庖丁 解牛 分词

    中文分词庖丁解牛 一般使用使用评估参考资料下载开始使用分词策略 效果体验 在命令行模式下执行analyzer.bat(windows)或analyzer.sh(linux)即可0u 显示帮助E:\Paoding-Analysis>analyzer.bat ?u 分词...

  • 中文分词方法汇总笔记

    中文分词方法和工具汇总笔记 从分词难点、分词方法:传统基于字典基于词典的分词方法、、基于机器学习的分词方法进行总结

  • java paoding_Java PaodingAnalyzer類代碼示例

    本文整理匯總了Java中net.paoding.analysis.analyzer.PaodingAnalyzer類的典型用法代碼示例。...Java PaodingAnalyzer使用的例子?那麽恭喜您, 這裏精選的類代碼示例或許可以為您提供幫助。PaodingAnalyzer類...

  • 比较热门好用的开源中文分词软件系统有哪些?

    对于我们每天打交道的中文来说,并没有类似英文空格的边界标志。而理解句子所包含的词语,则是理解汉语语句的第一步。汉语自动分词的任务,通俗地说,就是要由机器在文本中的词与词之间自动加上空格。 一提到自动...

  • paoding、imdict、mmseg4j、ik四种分词器的比较

    paoding :Lucene中文分词“庖丁解牛” Paoding Analysis imdict :imdict智能词典所采用的智能中文分词程序 mmseg4j : 用 Chih-Hao Tsai 的 MMSeg 算法 实现的中文分词器 ik :采用了特有的“正向迭代最...

  • paoding Lucene中文分词Paoding Analysis

    中文分词具有极 高效率 和 高扩展性 。引入隐喻,采用完全的面向对象设计,构思先进。 高效率:在PIII 1G内存个人机器上,1秒 可准确分词 100万 汉字。 采用基于 不限制个数 的词典文件对文章进行...

  • 庖丁中文分词入门(一) 效果体验

    zip download:http://code.google.com/p/paoding/downloads/list<br />svn: http://paoding.googlecode.com/svn/trunk/paoding-analysis/效果体验 使用者第一步最有可能的是想要体验了解庖丁的分词效果...

  • 细说中文分词

    完整的中文自然语言处理过程一般包括以下五种中文处理核心技术:分词、词性标注、命名实体识别、依存句法分析、语义分析。其中,分词是中文自然语言处理的基础,搜素...中文分词就是将中文语句中的词汇按照使用时的...

  • 中文分词学习总结

    中文分词(Chinese Word Segmentation) 指的是将一个汉字序列切分成一个一个单独的词。分词就是将连续的字序列按照一定的规范重新组合成词序列的过程。我们知道,在英文的行文中,单词之间是以空格作为自然分界符的,...

  • Ripr0-v5曰主题8.3开心版适用于知识付费资源素材博客

    RiPr0主题的全新V5版本(原RiPr0-V2的升级版)是一款功能卓越、性能优越且速度极快的WordPress虚拟资源商城主题。它具备首页模块化布局和WP原生小工具的自由拖拽设置,以提高网站设计便捷性。此外,该主题还支持高级筛选、内置会员生态系统和多种支付接口,使网站无需依赖任何附加插件即可实现众多功能。同时,主题也支持卡密、充值和站内币等多种功能,为您的网站提供全面而有效的解决方案。

  • 预计2030年全球扫地机器人市场规模将达到87.8亿美元

    扫地机器人是一种智能家居电器,主要用于地面清洁。它通常具备自主导航、避障、清扫和吸尘等功能,部分高级产品还增加了拖地、消毒等附加功能。扫地机器人通过内置的传感器和智能算法,能够自主规划清扫路径,识别并避开障碍物,实现高效的地面清洁。 据QYResearch调研团队最新报告“全球扫地机器人市场报告2024-2030”显示,预计2030年全球扫地机器人市场规模将达到87.8亿美元,未来几年年复合增长率CAGR为7.2%。

  • 基于springboot+vue的在线宠物用品交易网站的设计与实现(Java毕业设计,附源码,部署教程).zip

    该项目包含完整的前后端代码、数据库脚本和相关工具,简单部署即可运行。功能完善、界面美观、操作简单,具有很高的实际应用价值,非常适合作为Java毕业设计或Java课程设计使用。 所有项目均经过严格调试,确保可运行!下载后即可快速部署和使用。 1 适用场景: 毕业设计 期末大作业 课程设计 2 项目特点: 代码完整:详细代码注释,适合新手学习和使用 功能强大:涵盖常见的核心功能,满足大部分课程设计需求 部署简单:有基础的人,只需按照教程操作,轻松完成本地或服务器部署 高质量代码:经过严格测试,确保无错误,稳定运行 3 技术栈和工具 前端:HTML + Vue.js 后端框架:Spring Boot 开发环境:IntelliJ IDEA 数据库:MySQL(建议使用 5.7 版本,更稳定) 数据库可视化工具:Navicat 部署环境:Tomcat(推荐 7.x 或 8.x 版本),Maven

Global site tag (gtag.js) - Google Analytics