`
onedear
  • 浏览: 68920 次
  • 性别: Icon_minigender_1
  • 来自: 广州
社区版块
存档分类
最新评论

修改imdict分词的机制,让其允许附加词库

阅读更多
http://onedear.iteye.com/admin/blogs/673724 这个是修复后的版本,请打开这个连接下载代码

    一直喜欢中科院的分词,但由于共享版有时间限制,虽有破解版,但这样用破解就不爽,在其官网找了一个java版的中科院分词imdict-chinese-analyzer 
下载地址是
    http://ictclas.org/OpenSrcDownCount.asp?PacketId=48&url=down/imdict-chinese-analyzer.zip
用了以后,觉得效果不错,但最大的硬伤是不允许附加词库,但既然源代码都到手了,这种不允许附加的机制当然能改。
最后没有改动源代码,仅仅自己另外写了几个类实现了

使用方式请看附件里面的readme.txt

//不加入默认词库,词库里面没有陆河县这个词,结果是 广东 陆 河 县 onedear
//附加词库后,结果是“广东 陆河县 onedear ”

同时也曾带上词性,但不是很准,所以附件里面的工程就取消了,主要是没有一个很好的算法跟思想,对多义词不知道应如何处理。希望大家能给给意见。
分享到:
评论
5 楼 wuzijingaip 2013-10-25  
没用额。。。。。。怎么回事?
4 楼 onedear 2010-02-25  
ljishen 写道
我也是根据你说的做了,结果还是一样的啊,你看看:


2010-02-11 23:24:27增加了1个词语
写入到了默认词库。。。
2010-02-11 23:24:31广东 陆 河 县 onedear


没有任何改变....


是个bug来的,
运行了这句代码new ImdictExtend().addMyDict("myDict.dict", true);
当前运行不生效,会在下一次生效
3 楼 ljishen 2010-02-11  
我也是根据你说的做了,结果还是一样的啊,你看看:


2010-02-11 23:24:27增加了1个词语
写入到了默认词库。。。
2010-02-11 23:24:31广东 陆 河 县 onedear


没有任何改变....
2 楼 onedear 2010-01-25  
geniuslph 写道
兄弟,我下载了你的这个,也按照你的方法试了,好像没起什么效果,分词和以前的效果一样,根本就没有加入你的词库,是不是你提供的去掉了这个功能?


//不加入默认词库,词库里面没有陆河县这个词,结果是 广东 陆 河 县 onedear
//附加词库后,结果是“广东 陆河县 onedear ”
这个效果能看到不,能看到的话就是添加词库了
1 楼 geniuslph 2010-01-22  
兄弟,我下载了你的这个,也按照你的方法试了,好像没起什么效果,分词和以前的效果一样,根本就没有加入你的词库,是不是你提供的去掉了这个功能?

相关推荐

    基于Lucene的中文分词器代码paoding,IK,imdict,mmseg4j

    IK以其强大的词库管理和动态加载功能而知名,支持多种分词模式,包括精确模式、全模式、最短路径模式等,以适应不同的应用场景。IK还具备智能分析能力,可以自动识别并处理未登录词,增强了分词的准确性。 3. ...

    扩展imdict中文分词改进版

    NULL 博文链接:https://onedear.iteye.com/blog/673724

    imdict-chinese-analyzer-java5.zip

    对于开发者来说,理解并掌握imdict-chinese-analyzer的分词机制和使用方法,能够提升对中文文本的处理能力,特别是在信息检索、文本分析、情感分析等领域。此外,通过阅读和研究源代码,还可以学习到Java编程、算法...

    imdict-chinese-analyzer-java1.4

    改造nutch,将原来的中文分词程序改成imdict-chinese-analyzer,这个是根据中科院的c版分词程序而来的纯java版

    常用中文分词器及地址链接

    当前有多种中文分词器可供选择,每种分词器都有其特点和优势,本文将对当前常用的中文分词器进行列举和介绍。 1. ICTCLAS ICTCLAS是业界比较出名的中文分词器,能够进行分词、词性标注等功能。ICTCLAS由C++编写,...

    全文检索之分词器分享.zip

    3,分享一波分词器SDK开发包及使用手册(IK分词器、imdict(ictclas)分词器、je分词器、mmseg分词器、paoding分词器、Shuzhen分词器、庖丁解羊分词器、增强版lucene分词器) 文件比较大,请耐心下载。

    solr技术方案.pdf

    为了实现更好的中文处理,我们可以选用第三方分词器,如Paoding、Imdict、IK Analyzer和Mmseg4j。在这些分词器中,Mmseg4j因其较高的准确率(98%)和简单的配置而被选中。通过在Solr的schema.xml中定义新的fieldType...

    网站搜索的进化PPT学习教案.pptx

    常见的中文分词工具有Scws(基于词频词典)、Paoding(基于Lucene)、Imdict(智能词典)和Mmseg4j(封装mmseg算法,自带Sogou词库)。这些工具帮助搜索引擎理解中文文本,提高搜索准确性。 4. Sphinx与Coreseek的...

Global site tag (gtag.js) - Google Analytics