`
onedear
  • 浏览: 69010 次
  • 性别: Icon_minigender_1
  • 来自: 广州
社区版块
存档分类
最新评论

扩展imdict中文分词改进版

 
阅读更多
上一个版本出现了一点问题,周末抽出了点时间,将网友反映的一些bug修复了了一下

不加入默认词库,词库里面没有陆河县这个词,结果是 广东 丸 迪 尔 onedear
附加词库后,结果是“广东 丸迪尔 onedear ”

本人邮箱:onedear@126.com
分享到:
评论

相关推荐

    基于Lucene的中文分词器代码paoding,IK,imdict,mmseg4j

    本文将深入探讨基于Lucene的四种中文分词器:Paoding、IK、Imdict和Mmseg4j,它们都是针对Java开发的高效、开源的中文分词工具。 1. Paoding(庖丁)分词器: Paoding是一款高性能的中文分词器,设计目标是提供...

    常用中文分词器及地址链接

    * 可扩展性:中文分词器需要具有良好的可扩展性,以便于满足未来中文文本处理需求的变化。 * 易用性:中文分词器需要易于使用、配置和维护,以便于开发者快速上手。 选择合适的中文分词器非常重要,对于中文文本...

    imdict-chinese-analyzer-java5.zip

    在信息技术领域,中文分词是处理中文文本的关键步骤,它将连续的汉字序列分割成具有独立语义的词语,为后续的文本分析、信息检索、自然语言处理等任务奠定基础。imdict-chinese-analyzer是一个基于Java开发的高效...

    imdict-chinese-analyzer-java1.4

    改造nutch,将原来的中文分词程序改成imdict-chinese-analyzer,这个是根据中科院的c版分词程序而来的纯java版

    全文检索之分词器分享.zip

    3,分享一波分词器SDK开发包及使用手册(IK分词器、imdict(ictclas)分词器、je分词器、mmseg分词器、paoding分词器、Shuzhen分词器、庖丁解羊分词器、增强版lucene分词器) 文件比较大,请耐心下载。

    solr技术方案.pdf

    为了实现更好的中文处理,我们可以选用第三方分词器,如Paoding、Imdict、IK Analyzer和Mmseg4j。在这些分词器中,Mmseg4j因其较高的准确率(98%)和简单的配置而被选中。通过在Solr的schema.xml中定义新的fieldType...

    网站搜索的进化PPT学习教案.pptx

    常见的中文分词工具有Scws(基于词频词典)、Paoding(基于Lucene)、Imdict(智能词典)和Mmseg4j(封装mmseg算法,自带Sogou词库)。这些工具帮助搜索引擎理解中文文本,提高搜索准确性。 4. Sphinx与Coreseek的...

Global site tag (gtag.js) - Google Analytics