如何在基于Lucene的中文分词器中添加自定义词典（如Paoding、mmseg4j、IK Analyzer）

leiyongping88

浏览: 77274 次
性别:
来自: 深圳

最近访客更多访客>>

xlscutcs

youling0548

xx5333

juggerhoo

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

Lucene

如何在基于Lucene的中文分词器中添加自定义词典（如Paoding、mmseg4j、IK Analyzer）

2013-07-08 21:54:29| 分类：计算机 |字号订阅

1. 使用Paoding自定义词典

参考文章：http://blog.csdn.net/zhangt85/article/details/8067743

（1）首先自定义一个XXX.dic的文件，以utf-8保存；

（2）将自定义词添加到dic/division下的XXX.dic中；

（3）删除.compile文件夹

有时候我们自定义词典的时候，发现不起作用，那么我们需要查看分词模式。

庖丁有两种分词模式：

most-words：最大词量分词方式,此模式对应的词典编译类为MostWordsModeDictionariesCompiler

max-word-length：按词在词典中的原序来进行编译，基本不再做其他处理，此模式对应的词典编译类为SortingDictionariesCompiler

most-words是默认的分词模式。为了解决不起作用的问题，我们更改分词模式，步骤如下：

（1）找到你工程中引入的paoding-analysis.jar，将其打开，你会看到这样的一个配置文件paoding-analyzer.properties，打开内容如下：

#PaodingAnlyzer Mode, "most-words", "max-word-length", "class:com.xxx.MyTokenCollectorImpl"...

#paoding.analyzer.mode=most-words

#paoding.analyzer.dictionaries.compiler=net.paoding.analysis.analyzer.impl.MostWordsModeDictionariesCompiler

#paoding.analyzer.mode=max-word-length

#paoding.analyzer.dictionaries.compiler=net.paoding.analysis.analyzer.impl.SortingDictionariesCompiler

我们需要做的就是去掉最后一行的注释，即去掉#，文件内容变为：

#PaodingAnlyzer Mode, "most-words", "max-word-length", "class:com.xxx.MyTokenCollectorImpl"...

#paoding.analyzer.mode=most-words

#paoding.analyzer.dictionaries.compiler=net.paoding.analysis.analyzer.impl.MostWordsModeDictionariesCompiler

#paoding.analyzer.mode=max-word-length

paoding.analyzer.dictionaries.compiler=net.paoding.analysis.analyzer.impl.SortingDictionariesCompiler

删掉.compile文件

未添加自定义词典之前，分词效果如下：

普洱|市|孟连|连县|赴|华南|理工|大|大学|进行|产学研|合作|洽谈|

然后我将“普洱市”和“孟连县”加入自定义词典XXX.dic，分词效果如下：

普洱|普洱市|孟连|连县|孟连县|赴|华南|理工|大|大学|理工大学|华南理工大学|进行|产学研|合作|洽谈|

通过上面结果的对比，可以发现，添加的自定义词都分出来了，满足了我的需求，同时发现，Sort模式是在most模式的基础上，在按照字典中的词，再来一遍分词，所以分词的结果数也多很多。

2. 使用mmseg4j自定义词典

参考文章：http://blog.chenlb.com/2009/04/chinese-segment-mmseg4j-dictionary-format.html#postcomment

在mmseg4j中自定义词典相对简单，目前mmseg4j的词库存放在data目录中，包括 chars.dic、units.dic、words.dic，并且强制使用 UTF-8 编码。

下面一一解说下词库的格式。

1、 chars.dic，是单个字，和对应的频率，一行一对，字在全面，频率在后面，中间用空格分开。这个文件的信息是 complex 模式要用到的。在最后一条过虑规则中使用了频率信息。从 1.5 版后已经把它打包进 jar 里，一般不用关心它。不过可以在词库目录下放一个同名文件覆盖它。

2、 units.dic，是单位的字，如：分、秒、年。这一文件是我在 mmseg4j 1.6 后加入的，也是一行一条。主要是在数字后面的单位信息切分好，不与words.dic中的词有混淆。同时也打包进 jar 里，目前还是试行，如果不喜欢它，可以用空的文件放到词库目录下覆盖它。

3、words.dic，是核心的词库文件，一行一条，不需要其它任何数据（如词长）。1.0 版是用 rmmseg（ruby 的 mmseg 实现）的词库。1.5版后 mmseg4j 改用 sogou 词库，可以 http://www.sogou.com/labs/dl/w.html 找到下载。然后我把它去了频率等信息，并转为 UTF-8 编码。

4、 wordsXXX.dic，是自定义词库文件（其实是 mmseg4j 可以从多个文件读取词）。这功能是 1.6 版加入的。它的格式与 words.dic 一样，只不过 XXX 部分是如您自己写的名字，如：源码包里的 data/words-my.dic。注意：自定义词库文件名必需是 "words" 为前缀和 ".dic" 为后缀。

mmseg4j 默认从当前目录下的 data 目录读取上面的文件。当然也可以指定别的目录，如：new ComplexAnalyzer("./my_dic")。

所以如果想自己定义词典，直接讲词加到wordsXXX.dic里面即可。如果加了自定义的词，要用 simple 或 complex 分词模式是检验它是否有效。因为目前 max-word 模式分出来的词长不会超过2。

未添加自定义词典之前，分词效果如下：

SimplexAnalyzer分词结果是：普|洱|市|孟|连|县|赴|华南理工大学|进行|产|学|研|合作|洽谈|。

ComplexAnalyzer分词结果是：普|洱|市|孟|连|县|赴|华南理工大学|进行|产|学|研|合作|洽谈|。

MaxWordAnalyzer分词结果是：普|洱|市|孟|连|县|赴|华南|理工|大学|进行|产|学|研|合作|洽谈|。

然后我将“普洱市”和“孟连县”加入自定义词典words-my.dic，分词效果如下：

SimplexAnalyzer分词效果为：普洱市|孟连县|赴|华南理工大学|进行|产|学|研|合作|洽谈|。

ComplexAnalyzer分词效果为：普洱市|孟连县|赴|华南理工大学|进行|产|学|研|合作|洽谈|。

MaxWordAnalyzer分词效果为：普|洱|市|孟|连|县|赴|华南|理工|大学|进行|产|学|研|合作|洽谈|。

3. 使用IK Analyzer自定义词典

IK Analyzer 可以加载扩展停止词典，也可以自定义词典，配置过程也很简单，将自己定义的词写入到文档中，存储为XXX.dic格式，例如ext.dic，放在与stopword.dic同一个目录下，打开IKAnalyzer.cfg.xml，内容如下：

<comment>IK Analyzer 扩展配置</comment>

<entry key="ext_stopwords">stopword.dic;</entry>

</properties>

将自定义词典在配置文件里面写入即可。

未添加自定义词典之前，分词效果如下：

普洱|市|孟|连县|赴|华南理工大学|进行|产学研|合作|洽谈|。

然后我将“普洱市”和“孟连县”加入自定义词典ext.dic，分词效果如下：

普洱市|孟连县|赴|华南理工大学|进行|产学研|合作|洽谈|。

另外，需要说明的是 imdict-chinese-analyzer不支持自定义词库，自带了两个字典，coredict核心字典和bigramdict词关系字典，这是两个最重要的字典，没有地名和人名的词典，所以要识别人名地名比较麻烦。

转载：http://lilongbao.blog.163.com/blog/static/2128760512013689194583/

分享到：

Web爬虫Heritrix的安装和配置 | zoie-3.3+lucene3.5实时检索和查询

2013-09-02 12:05
浏览 3107
评论(0)
分类:开源软件
查看更多

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

基于Lucene的中文分词器代码paoding,IK,imdict,mmseg4j: 本文将深入探讨基于Lucene的四种中文分词器：Paoding、IK、Imdict和Mmseg4j，它们都是针对Java开发的高效、开源的中文分词工具。 1. Paoding（庖丁）分词器： Paoding是一款高性能的中文分词器，设计目标是提供...

兼容solr4.10.2的ik-mmseg4j-paoding分词器: 能兼容solr-4.10.2的分词器,大礼包...包括IK分词器,mmseg4j分词器,庖丁分词器.都是经本人测试可用,其中mmseg4j与庖丁都是下载源码,修改重编译并测试生成的.希望大家喜欢.至于与solr的整合方式,网上很多,这里就不介绍了.

solr技术方案.pdf: 为了实现更好的中文处理，我们可以选用第三方分词器，如Paoding、Imdict、IK Analyzer和Mmseg4j。在这些分词器中，Mmseg4j因其较高的准确率（98%）和简单的配置而被选中。通过在Solr的schema.xml中定义新的fieldType...

东营市乡镇边界，矢量边界，shp格式: 矢量边界，行政区域边界，精确到乡镇街道，可直接导入arcgis使用

Java SSM 商户管理系统客户管理库存管理销售报表项目源码本商品卖的是源码，合适的地方.zip: 毕业设计

075.JSP+SQL宿舍管理系统.zip: 毕业设计

经验贝叶斯EB的简单例子: 经验贝叶斯EB的简单例子

69页-智慧园区综合管理平台解决方案.pdf: 智慧园区，作为现代城市发展的新形态，旨在通过高度集成的信息化系统，实现园区的智能化管理与服务。该方案提出，利用智能手环、定制APP、园区管理系统及物联网技术，将园区的各类设施与设备紧密相连，形成一个高效、便捷、安全的智能网络。从智慧社区到智慧酒店，从智慧景区到智慧康养，再到智慧生态，五大应用板块覆盖了园区的每一个角落，为居民、游客及工作人员提供了全方位、个性化的服务体验。例如，智能手环不仅能实现定位、支付、求助等功能，还能监测用户健康状况，让科技真正服务于生活。而智慧景区的建设，更是通过大数据分析、智能票务、电子围栏等先进技术，提升了游客的游玩体验，确保了景区的安全有序。尤为值得一提的是，方案中的智慧康养服务，展现了科技对人文关怀的深刻体现。通过智慧手环与传感器，自动感知老人身体状态，及时通知家属或医疗机构，有效解决了“空巢老人”的照护难题。同时，智慧生态管理系统的应用，实现了对大气、水、植被等环境要素的实时监测与智能调控，为园区的绿色发展提供了有力保障。此外，方案还提出了建立全域旅游营销平台，整合区域旅游资源，推动旅游业与其他产业的深度融合，为区域经济的转型升级注入了新的活力。总而言之，这份智慧园区建设方案以其前瞻性的理念、创新性的技术和人性化的服务设计，为我们展示了一个充满智慧与活力的未来园区图景。它不仅提升了园区的运营效率和服务质量，更让科技真正融入了人们的生活，带来了前所未有的便捷与舒适。对于正在规划或实施智慧园区建设的决策者而言，这份方案无疑提供了一份宝贵的参考与启示，激发了他们对于未来智慧生活的无限遐想与憧憬。

数学建模相关主题资源2: 数学建模相关主题资源2

SQL编程语言在数据科学领域的面试技巧及核心功能解析: 内容概要：本文围绕SQL在求职和实际工作中的应用展开，详细解析了SQL的重要性及其在不同行业中不可替代的地位。文章首先强调了SQL作为“一切数据工作的起点”，是数据分析、数据挖掘等领域必不可少的技能，并介绍了SQL与其他编程语言在就业市场的对比情况。随后重点探讨了SQL在面试过程中可能出现的挑战与应对策略，具体涉及到询问澄清问题、正确选择JOIN语句类型、恰当使用GROUP BY及相关过滤条件的区别、理解和运用窗口函数等方面，并给出了详细的实例和技巧提示。另外提醒面试者要注意重复值和空值等问题，倡导与面试官及时沟通。文中引用IEEE Spectrum编程语言排行榜证明了SQL不仅广泛应用于各行各业，在就业市场上也最受欢迎。适用人群：从事或打算转入数据科学领域（包括但不限于数据分析师、数据科学家、数据工程师等职业方向），并对掌握和深入理解SQL有一定需求的专业人士，尤其是正准备涉及SQL相关技术面试的求职者。使用场景及目标：帮助用户明确在面对复杂的SQL查询题目时能够更加灵活应对，提高解题效率的同时确保准确性；同时让用户意识到SQL不仅仅是简单的数据库查询工具，而是贯穿整个数据处理流程的基础能力之一，进而激发他们进一步探索的热情。其他说明：SQL在性能方面优于Excel尤其适用于大规模数据操作；各知名企业仍将其视为标准数据操作手段。此外还提供了对初学者友好的建议，针对留学生普遍面临的难题如零散的学习资料、昂贵且效果不佳的付费教程以及难以跟上的纯英教学视频给出了改进的方向。

COMSOL仿真揭示石墨烯临界耦合光吸收特性：费米能级调控下的光学性能探究,COMSOL仿真揭示石墨烯临界耦合光吸收特性：费米能级调控下的光学性能探究,COMSOL 准 BIC控制石墨烯临界耦合光吸收: COMSOL仿真揭示石墨烯临界耦合光吸收特性：费米能级调控下的光学性能探究,COMSOL仿真揭示石墨烯临界耦合光吸收特性：费米能级调控下的光学性能探究,COMSOL 准 BIC控制石墨烯临界耦合光吸收。 COMSOL 光学仿真，石墨烯，光吸收，费米能级可调下图是仿真文件截图，所见即所得。 ,COMSOL; 准BIC; 石墨烯; 临界耦合光吸收; 光学仿真; 费米能级可调。,COMSOL仿真：石墨烯光吸收的BIC控制与费米能级调节

Labview与Proteus串口仿真下的温度采集与报警系统：Keil单片机程序及全套视频源码解析,Labview与Proteus串口仿真温度采集及上位机报警系统实战教程：设定阈值的Keil程序源码分: Labview与Proteus串口仿真下的温度采集与报警系统：Keil单片机程序及全套视频源码解析,Labview与Proteus串口仿真温度采集及上位机报警系统实战教程：设定阈值的Keil程序源码分享,labview 和proteus 联合串口仿真温度采集上位机报警设定阈值单片机keil程序整套视频仿真源码 ,关键词：LabVIEW；Proteus；串口仿真；温度采集；上位机报警；阈值设定；Keil程序；视频仿真源码。,LabVIEW与Proteus联合串口仿真：温度采集与报警系统，Keil程序与阈值设定全套视频源码

整车性能目标书：涵盖燃油车、混动车及纯电动车型的十六个性能模块目标定义模板与集成开发指南,整车性能目标书：涵盖燃油车、混动车及纯电动车型的十六个性能模块目标定义模板与集成开发指南,整车性能目标书，汽车: 整车性能目标书：涵盖燃油车、混动车及纯电动车型的十六个性能模块目标定义模板与集成开发指南,整车性能目标书：涵盖燃油车、混动车及纯电动车型的十六个性能模块目标定义模板与集成开发指南,整车性能目标书，汽车性能目标书，十六个性能模块目标定义模板，包含燃油车、混动车型及纯电动车型。对于整车性能的集成开发具有较高的参考价值 ,整车性能目标书;汽车性能目标书;性能模块目标定义模板;燃油车;混动车型;纯电动车型;集成开发;参考价值,《汽车性能模块化目标书：燃油车、混动车及纯电动车的集成开发参考》

面板数据熵值法Stata代码（附样本数据和结果）.rar: 熵值法stata代码（含stata代码+样本数据）面板熵值法是一种在多指标综合评价中常用的数学方法，主要用于对不同的评价对象进行量化分析，以确定各个指标在综合评价中的权重。该方法结合了熵值理论和面板数据分析，能够有效地处理包含多个指标的复杂数据。

“电子电路”仿真资源（Multisim、Proteus、PCB等）: “电子电路”仿真资源（Multisim、Proteus、PCB等）

107_xee_water_consumption.txt: 在 GEE（Google Earth Engine）中，XEE 包是一个用于处理和分析地理空间数据的工具。以下是对 GEE 中 XEE 包的具体介绍：主要特性地理数据处理：提供强大的函数和工具，用于处理遥感影像和其他地理空间数据。高效计算：利用云计算能力，支持大规模数据集的快速处理。可视化：内置可视化工具，方便用户查看和分析数据。集成性：可以与其他 GEE API 和工具无缝集成，支持多种数据源。适用场景环境监测：用于监测森林砍伐、城市扩展、水体变化等环境问题。农业分析：分析作物生长、土地利用变化等农业相关数据。气候研究：研究气候变化对生态系统和人类活动的影响。

C++指针与内存管理详解：避免常见错误及最佳实践: 内容概要：本文介绍了C++编程中常见指针错误及其解决方案，并涵盖了模板元编程的基础知识和发展趋势，强调了高效流操作的最新进展——std::spanstream。文章通过一系列典型错误解释了指针的安全使用原则，强调指针初始化、内存管理和引用安全的重要性。随后介绍了模板元编程的核心特性，展示了编译期计算、类型萃取等高级编程技巧的应用场景。最后，阐述了C++23中引入的新特性std::spanstream的优势，对比传统流处理方法展现了更高的效率和灵活性。此外，还给出了针对求职者的C++技术栈学习建议，涵盖了语言基础、数据结构与算法及计算机科学基础领域内的多项学习资源与实战练习。适合人群：正在学习C++编程的学生、从事C++开发的技术人员以及其他想要深入了解C++语言高级特性的开发者。使用场景及目标：帮助读者掌握C++中的指针规则，预防潜在陷阱；介绍模板元编程的相关技术和优化方法；使读者理解新引入的标准库组件，提高程序性能；引导C++学习者按照有效的路径规划自己的技术栈发展路线。阅读建议：对于指针部分的内容，应当结合实际代码样例反复实践，以便加深理解和记忆；在研究模板元编程时，要从简单的例子出发逐步建立复杂模型的理解能力，培养解决抽象问题的能力；而对于C++23带来的变化，则可以通过阅读官方文档并尝试最新标准特性来加深印象；针对求职准备，应结合个人兴趣和技术发展方向制定合理的学习计划，并注重积累高质量的实际项目经验。

Java读写FM1208CPU卡源码: JNA、JNI， Java两种不同调用DLL、SO动态库方式读写FM1208 CPU卡示例源码，包括初始化CPU卡、创建文件、修改文件密钥、读写文件数据等操作。支持Windows系统、支持龙芯Mips、LoongArch、海思麒麟鲲鹏飞腾Arm、海光兆芯x86_Amd64等架构平台的国产统信、麒麟等Linux系统编译运行，内有jna-4.5.0.jar包，vx13822155058 qq954486673

Linux系统入门到精通：从基础命令到服务管理和日志解析: 内容概要：本文全面介绍了Linux系统的各个方面，涵盖入门知识、基础操作、进阶技巧以及高级管理技术。首先概述了Linux的特点及其广泛的应用领域，并讲解了Linux环境的搭建方法（如使用虚拟机安装CentOS），随后深入剖析了一系列常用命令和快捷键，涉及文件系统管理、用户和权限设置、进程和磁盘管理等内容。此外，还讨论了服务管理的相关指令（如nohup、systemctl）以及日志记录和轮替的最佳实践。这不仅为初学者提供了一个完整的知识框架，也为中级和高级用户提供深入理解和优化系统的方法。适合人群：适用于有意深入了解Linux系统的学生和专业技术人员，特别是需要掌握服务器运维技能的人群。使用场景及目标：本文适合初次接触Linux的操作员了解基本概念；也适合作为培训教材，指导学生逐步掌握各项技能。对于有一定经验的技术人员而言，则可以帮助他们巩固基础知识，并探索更多的系统维护和优化可能性。阅读建议：建议按照文章结构循序渐进地学习相关内容，尤其是结合实际练习操作来加深记忆和理解。遇到复杂的问题时可以通过查阅官方文档或在线资源获得更多帮助。

企业绩效考核制度详解：运维部门绩效管理流程规范及其应用: 内容概要：本文档详细介绍了企业在规范运维部门绩效管理过程中所建立的一套绩效考核制度。首先阐述了绩效考核制度设立的目的为确保绩效目标得以衡量与追踪，并确保员工与公司共同成长与发展。其次规定范围覆盖公司所有在职员工，并详细列明了从总经理到一线员工在内的不同角色的职责范围。再则描述了完整的绩效工作流程，即从年初开始制定绩效管理活动计划，经过与每个员工制定具体的绩效目标，在绩效考核周期之内对员工的工作进展和问题解决状况进行持续的监督跟进，并且在每周期结束前完成员工绩效的评估和反馈工作，同时利用绩效评估结果对员工作出保留或异动的相关决定，最后进行绩效管理活动总结以为来年提供参考。此外还强调了整个过程中必要的相关文档保存，如员工绩效评估表。适合人群：企业管理层，HR专业人士及对现代企业内部运营管理感兴趣的读者。使用场景及目标：①管理层需要理解如何规范和有效实施企业内部绩效管理，以提高公司运营效率和员工满意度；②HR人士可以通过参考此文档来优化自己公司的绩效管理体系；③对企业和组织管理有兴趣的研究员亦可借鉴。阅读建议：读者应重点关注各个层级管理者和员工在整个流程中的角色和责任，以期更好地理解

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

如何在基于Lucene的中文分词器中添加自定义词典（如Paoding、mmseg4j、IK Analyzer）

如何在基于Lucene的中文分词器中添加自定义词典（如Paoding、mmseg4j、IK Analyzer）

评论

发表评论

相关推荐

zoie-3.3+lucene3.5实时检索和查询

Lucene4.3检索，分词，搜索

最近访客更多访客>>