阅读更多

10顶
0踩

编程语言

原创新闻 庖丁中文分词示例应用paoding.net已上线使用

2007-10-26 09:14 by 见习记者 Qieqie 评论(3) 有7166人浏览
庖丁解牛是Javaeye的会员Qieqie开发的一套基于Lucene中文分词工具, 最近发布了一个在线演示版本.

地址:http://paoding.net

这是庖丁中文分词的示例应用。使用的分词器版本是2.0.4-alpha2(发布时间是2007-10-22日)。

----------------------------------------------------------
索引范围:
新浪博客,2007-9-27日统计的点击率最前的1000名博客地址。
paoding建立了这1000个用户从其创建博客到2007-9-26日的所有文章,以及部分博客的9月27日的文章

----------------------------------------------------------
重要数据摘要:
博客数: 1000
博客文章数: >30万篇
Lucene索引库个数: 1个
索引库状态: 已优化
索引库大小: 3.03G
操作系统: REHL4
查询效率: 没有不良体验


10
0
评论 共 3 条 请登录后发表评论
3 楼 yumi301 2009-09-16 10:29
访问不了了
2 楼 shawn427 2007-11-01 09:50
的确不错。
1 楼 rainsf 2007-10-26 13:20
Qieqie,好久不见,搜索速度很快,但没理由搜索时间全都是0吧?你做了缓存吗?能提供你搜索那部分的源代码参考下吗?

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

  • java 庖丁解牛中文分词_庖丁解牛"中文分词包

    http://code.google.com/p/paoding/Paoding Analysis摘要Paoding's Knives 中文分词具有极 高效率 和 高扩展性 。引入隐喻,采用完全的面向对象设计,构思先进。高效率:在PIII 1G内存个人机器上,1秒 可准确分词 ...

  • 各种中文分词工具的使用方法

    本文介绍jieba、HanLP、LAC、THULAC、NLPIR、spacy等多种常用的Python中文分词工具的简单使用方法。

  • 利用庖丁解牛工具进行中文分词

    关于如何使用庖丁解牛分词工具可参考:http://www.letiantian.me/2014-11-26-word-segmentation-paoding-analysis/ 该工具可实现自定义词典,对于有些特殊的词,比如明星名字林心如霍建华等,可构建词典以.dic为...

  • lucene java 庖丁解牛_Lucene3.3、Lucene3.4中文分词——庖丁解牛分词实例

    如果是Lucene3.0以上版本首先我们需要下载庖丁解牛最新源码并生成jar文件,我已经将最新源码和jar文件上传了:http://download.csdn.net/detail/a_2cai/3671164 ,可以下载,或者下载一个SVN客户端从...

  • 中文分词的应用 新浪和庖丁两种方式对比

    中文分词相比于英文难度要大得多,涉及到自然语言的理解和处理。分词也是文本挖掘中的关键技术之一,百度也是因为中文分词相比于google更优秀,才做到中文的检索结果更优。实际上新浪、百度云服务上很多开发者也开放...

  • paoding分词

    庖丁中文分词库是一个使用Java开发的,可结合到Lucene应用中的,为互联网、企业内部网使用的中文搜索引擎分词组件。Paoding填补了国内中文分词方面开源组件的空白,致力于此并希翼成为互联网网站首选的中文分词开源...

  • PHP-分词- paoding基于Lucene的最流行的分词法

    paoding :Lucene中文分词“庖丁解牛” Paoding Analysis imdict :imdict智能词典所采用的智能中文分词程序 mmseg4j : 用 Chih-Hao Tsai 的 MMSeg 算法 实现的中文分词器 ik :采用了特有的“正向迭代最细粒度...

  • Paoding Analyzer 庖丁 解牛 分词

    中文分词庖丁解牛 一般使用使用评估参考资料下载开始使用分词策略 效果体验 在命令行模式下执行analyzer.bat(windows)或analyzer.sh(linux)即可0u 显示帮助E:\Paoding-Analysis>analyzer.bat ?u 分词...

  • 中文分词方法汇总笔记

    中文分词方法和工具汇总笔记 从分词难点、分词方法:传统基于字典基于词典的分词方法、、基于机器学习的分词方法进行总结

  • java paoding_Java PaodingAnalyzer類代碼示例

    本文整理匯總了Java中net.paoding.analysis.analyzer.PaodingAnalyzer類的典型用法代碼示例。...Java PaodingAnalyzer使用的例子?那麽恭喜您, 這裏精選的類代碼示例或許可以為您提供幫助。PaodingAnalyzer類...

  • 比较热门好用的开源中文分词软件系统有哪些?

    对于我们每天打交道的中文来说,并没有类似英文空格的边界标志。而理解句子所包含的词语,则是理解汉语语句的第一步。汉语自动分词的任务,通俗地说,就是要由机器在文本中的词与词之间自动加上空格。 一提到自动...

  • paoding、imdict、mmseg4j、ik四种分词器的比较

    paoding :Lucene中文分词“庖丁解牛” Paoding Analysis imdict :imdict智能词典所采用的智能中文分词程序 mmseg4j : 用 Chih-Hao Tsai 的 MMSeg 算法 实现的中文分词器 ik :采用了特有的“正向迭代最...

  • paoding Lucene中文分词Paoding Analysis

    中文分词具有极 高效率 和 高扩展性 。引入隐喻,采用完全的面向对象设计,构思先进。 高效率:在PIII 1G内存个人机器上,1秒 可准确分词 100万 汉字。 采用基于 不限制个数 的词典文件对文章进行...

  • 庖丁中文分词入门(一) 效果体验

    zip download:http://code.google.com/p/paoding/downloads/list<br />svn: http://paoding.googlecode.com/svn/trunk/paoding-analysis/效果体验 使用者第一步最有可能的是想要体验了解庖丁的分词效果...

  • 细说中文分词

    完整的中文自然语言处理过程一般包括以下五种中文处理核心技术:分词、词性标注、命名实体识别、依存句法分析、语义分析。其中,分词是中文自然语言处理的基础,搜素...中文分词就是将中文语句中的词汇按照使用时的...

  • 中文分词学习总结

    中文分词(Chinese Word Segmentation) 指的是将一个汉字序列切分成一个一个单独的词。分词就是将连续的字序列按照一定的规范重新组合成词序列的过程。我们知道,在英文的行文中,单词之间是以空格作为自然分界符的,...

  • 基于FPGA的四相八拍步进电机控制系统设计:集成交付、正反转、加速减速及调速功能

    内容概要:本文详细介绍了基于FPGA的四相八拍步进电机控制系统的开发过程。主要内容包括:1. 使用VHDL和Verilog编写LED显示屏驱动代码,用于显示角度、学号和姓名等信息;2. 实现步进电机的正反转控制,通过状态机管理相序变化;3. 开发加速减速控制模块,确保电机启动和停止时的平稳性;4. 设计调速功能,通过调节脉冲频率实现速度控制。此外,文中还讨论了调试过程中遇到的问题及其解决方案。 适合人群:对FPGA开发和步进电机控制感兴趣的电子工程师、嵌入式系统开发者以及相关专业的学生。 使用场景及目标:适用于需要高精度运动控制的应用场合,如工业自动化、机器人技术和精密仪器等领域。目标是帮助读者掌握FPGA控制步进电机的基本原理和技术细节。 其他说明:文中提供了详细的代码片段和调试经验分享,有助于读者更好地理解和应用所学知识。同时,作者还提到了一些实用技巧,如通过PWM调节实现多级变速,以及如何避免步进电机的共振问题。

  • Android开发:基于SQLite的日历备忘录记事本项目详解与实现

    内容概要:本文详细介绍了基于Android Studio开发的日历备忘录记事本项目,涵盖日历查看、添加备忘录、闹钟提醒和删除备忘录等功能。项目使用SQLite数据库进行数据存储,通过CalendarView、EditText、Button等控件实现用户交互,并利用AlarmManager和PendingIntent实现闹钟提醒功能。此外,项目还包括数据库的设计与管理,如创建DatabaseHelper类来管理数据库操作,确保数据的安全性和完整性。文章还探讨了一些常见的开发技巧和注意事项,如时间戳的使用、手势监听的实现等。 适用人群:适用于初学者和有一定经验的Android开发者,尤其是希望深入了解Android开发基础知识和技术细节的人群。 使用场景及目标:该项目旨在帮助开发者掌握Android开发的基本技能,包括UI设计、数据库操作、闹钟提醒机制等。通过实际项目练习,开发者能够更好地理解和应用这些技术,提升自己的开发能力。 其他说明:文中提到一些进阶任务,如用Room替换SQLite、增加分类标签、实现云端同步等,鼓励开发者进一步扩展和优化项目。同时,项目源码公开,便于学习和参考。

  • Matlab实现基于SVM-Adaboost支持向量机结合Adaboost集成学习时间序列预测的详细项目实例(含完整的程序,GUI设计和代码详解)

    内容概要:本文档详细介绍了一个基于SVM(支持向量机)和Adaboost集成学习的时间序列预测项目。该项目旨在通过结合这两种强大算法,提升时间序列预测的准确性和稳定性。文档涵盖了项目的背景、目标、挑战及其解决方案,重点介绍了模型架构、数据预处理、特征选择、SVM训练、Adaboost集成、预测与误差修正等环节。此外,文档还探讨了模型在金融市场、气象、能源需求、交通流量和医疗健康等多个领域的应用潜力,并提出了未来改进的方向,如引入深度学习、多任务学习、联邦学习等先进技术。 适合人群:具备一定机器学习基础的研究人员和工程师,特别是那些从事时间序列预测工作的专业人士。 使用场景及目标:①用于金融市场、气象、能源需求、交通流量和医疗健康等领域的复杂时间序列数据预测;②通过结合SVM和Adaboost,提升预测模型的准确性和稳定性;③处理噪声数据,降低计算复杂度,提高模型的泛化能力和实时预测能力。 其他说明:文档不仅提供了详细的理论解释,还附有完整的Matlab代码示例和GUI设计指导,帮助读者理解和实践。此外,文档还讨论了模型的部署与应用,包括系统架构设计、实时数据流处理、可视化界面、GPU加速推理等方面的技术细节。

Global site tag (gtag.js) - Google Analytics