`
mlcsdev
  • 浏览: 15494 次
  • 来自: 南宁
社区版块
存档分类
最新评论

Solr分词器大补贴:mlcsseg

阅读更多

 

0. 序言

       经常遇到不少人询问如何在solr4.x中集成各种分词器,其实也算是咱曾经的工作之一:按照solr的接口把一些分词器对接起来。所幸之前一直都接触这方面的内容因而没走什么弯路,值此团队开博之时,正好把一些代码重新整理共享一下。

 

1. 设计

       Java系的中文分词挺多了,ik,paoding,mmseg4j,ictclas4j,ansj等等,目前选取实现的是ik和ansj。将分词器扩展到solr易用模式我们考虑了2点:1. 大部分分词器的扩展自定义词库的功能都是读取本地文件,solr在单机环境读取的资源路径是磁盘但在solrcloud模式下读取的资源路径是zookeeper, 因此需要把分词器读取扩展自定义的词库改成以solr资源路径为准的。2. 在solrcloud模式下分词器触发扩展词库操作必须是每个replica都自己去做一遍,自己写solr的requesthandler是不能进行同索引分发的(比如mmseg4j写的触发操作handler), 因此要保证每个replica能同时能进行更新到同样的词库。

对于这两点,我们采用的方式是1:为分词器添加inputstream的读扩展词接口; 2:定时线程检查配置文件是否需要更新词库(会存在微小的时间范围内的不同replica词库不一致,最终会一致,但为了简单一点,没有采用zookeeper监听的方式,也不可能禁止重载词库的时候禁止solr读写)

 

2. 代码

代码托管在github:https://github.com/mlcsdev/mlcsseg   支持版本 4.3 ~ 4.7的solr

4个子项目:

   mlcsseg-common: 公用功能,所有分词器都要依赖这个

   mlcsseg-filter       :   可动态变更的停用词、同义词 过滤器

   mlcsseg-ik           :    ik分词器

   mlcsseg-ansj       :    ansj分词器

其中除了mlcsseg-ansj,都是直接mvn package就出的包就可以使用的。

mlcsseg-ansj需要用mvn assembly:assembly 方式打包带上两个它自己的jar包,你也可以直接手动从lib中拷出来用。(mlcsseg-ansj 本身至少要3个包,加上common 一共4个)

 

3. 使用

以mlcsseg-ik和mlcsseg-filter为例, 把三个对应jar拷贝到一个目录,并在solrconfig中设置好;

在schema.xml中增加如下内容

 

   <fieldType name="text_ik" class="solr.TextField" positionIncrementGap="100">
      <analyzer type="index">
        <tokenizer class="org.wltea.analyzer.lucene.IKTokenizerFactory" useSmart="false" conf="ik.conf"/>
        <filter class="solr.StopFilterFactory" ignoreCase="true" words="stopwords.txt" enablePositionIncrements="true" />
        <!-- in this example, we will only use synonyms at query time
        <filter class="solr.SynonymFilterFactory" synonyms="index_synonyms.txt" ignoreCase="true" expand="false"/>
        -->
         <filter class="solr.LowerCaseFilterFactory"/>
      </analyzer>
      <analyzer type="query">
        <tokenizer class="org.wltea.analyzer.lucene.IKTokenizerFactory" useSmart="true" conf="ik.conf"/>
          <filter class="solr.LowerCaseFilterFactory"/>
           <filter class="org.apache.solr.analysis.DStopFilterFactory" ignoreCase="true" enablePositionIncrements="true" conf="stop.conf"/>
           <filter class="org.apache.solr.analysis.DSynonymFilterFactory" ignoreCase="true" expand="true" conf="synonym.conf"/>
      </analyzer>
   </fieldType>
        说明:

 

1. 每个tokenizerFactory以及tokenfilterFactory 的属性中多包含了一个 conf=xxxx.conf 的项,xxxx.conf的内容是一个properties格式的配置:

lastupdate=11223
files=extDic.txt,extDic1.txt,synonyms.txt,isynonyms.txt

    其中的 lastupdate 是一个数字,只要这次修改比上一次大就会触发更新操作;files是分词器或者过滤器对应读取的词典文件名,编码必须是UTF-8,多个以英文逗号分隔。

 

2. xxxx.conf文件需要放在对应索引的config路径,例如单机模式放在[collection]/conf下。cloud模式放在./configs/[collection]/下。 也就是和schema solrconfig放在一起。

 

在上面的xml中,ik分词器在index时候配置了useSmart=false, 表示不开启智能切分,但在query时候开启了。 (默认useSmart是false)

 

再来看下ansj的配置:

 

 <fieldType name="text_ansj" class="solr.TextField" positionIncrementGap="100">
     <analyzer type="index">
       <tokenizer class="org.ansj.solr.AnsjTokenizerFactory" conf="ansj.conf"/>
     </analyzer>
	 <analyzer type="query">
       <tokenizer class="org.ansj.solr.AnsjTokenizerFactory" analysisType="1"/>
     </analyzer>
   </fieldType>

 配置方式和ik一样,analysisType="1" 表示分词类型,1代表标准切分,不写默认是0。是索引类型切分(也就是可能多分出一点词)

还有一个:rmPunc="false" 表示不去除标点符号。默认不写是true,表示去掉标点符号。

 

4. 一些经验

1. 我们并没有去修改分词器逻辑(IK调整了点智能分词算法),因此效果如何就不是特别关心的事了。如果要将单字切分出来,就把单字作为扩展字库。

2. 目前IK扩展词库支持同义词词库格式,但ansj的还不支持同义词词库格式。

3. 默认zookeeper保存1M大小的文件,cloud模式下如果扩展词库过大,需要切成很多份来使用。

4. 需要照顾查全率的时候,可以在index时候使用多切,query时候用智能切分,但这种方式必然可能会出现index切分不能完全包含query切分;也可以index,query都使用多切分的方式,但这样同义词就用得不方便了(例如“颜色”“色彩”是同义词,你期望query时的同义扩展,即搜“色彩”时候也能匹配到“颜色”,但多分可能导致“彩”字出现,而索引却没有;如果讲同义扩展放到index这边,那么修改同义词库时候就必须重建一次索引)。

 

5. 总结

ik的效率并不太好,我们希望重新实现一个简单高效的分词器。如果有时间会加入mmseg4j的接口。

欢迎大家使用,并给我们提出各个方面的意见和建议~

分享到:
评论
17 楼 a925907195 2016-01-27  
猫哥,赞一个
16 楼 lgnlgn 2015-01-26  
gbwl_cgl 写道
您好!
请问一下如果是在cloud模式下,ansj自定义词库的情况下,我的词典文件是直接放在./configs/[collection]/下吗?

是的
15 楼 gbwl_cgl 2015-01-15  
您好!
请问一下如果是在cloud模式下,ansj自定义词库的情况下,我的词典文件是直接放在./configs/[collection]/下吗?
14 楼 轻轻小丸子 2014-09-26  
猫猫
13 楼 lgnlgn 2014-09-26  
确实应该只需要依赖lucene,你是不是没选对分支,master是4.6 solr4.6是没问题的;

chenbo19867758 写道
经测算maven依赖的是lucene4.6.1 不兼容solr4.5.1
感觉楼主没有测试过就说兼容4.3~4.7!!!

12 楼 chenbo19867758 2014-09-18  
经测算maven依赖的是lucene4.6.1 不兼容solr4.5.1
感觉楼主没有测试过就说兼容4.3~4.7!!!
11 楼 chenbo19867758 2014-09-18  
solr4.5.1 报错
 org.apache.solr.handler.dataimport.SolrWriter -64880 [Thread-18] ERROR org.apache.solr.handler.dataimport.SolrWriter  - Exception while solr commit.
java.lang.UnsupportedOperationException: this codec can only be used for reading
        at org.apache.lucene.codecs.lucene42.Lucene42FieldInfosFormat.getFieldInfosWriter(Lucene42FieldInfosFormat.java:103)
        at org.apache.lucene.index.DocFieldProcessor.flush(DocFieldProcessor.java:87)
        at org.apache.lucene.index.DocumentsWriterPerThread.flush(DocumentsWriterPerThread.java:465)
        at org.apache.lucene.index.DocumentsWriter.doFlush(DocumentsWriter.java:506)
10 楼 chenbo19867758 2014-09-18  
files是分词器或者过滤器对应读取的词典文件名,编码必须是UTF-8,

注意这个地方
9 楼 chenbo19867758 2014-09-17  
solr配置报错4.5.1
coreUnibib: org.apache.solr.common.SolrException:org.apache.solr.common.SolrException: Plugin init failure for [schema.xml] fieldType "text_ik": Plugin init failure for [schema.xml] analyzer/tokenizer: Error instantiating class: 'org.wltea.analyzer.lucene.IKTokenizerFactory'. Schema file is /solr/solr_home/coreUnibib/schema.xml
8 楼 chenbo19867758 2014-09-17  
coreUnibib: org.apache.solr.common.SolrException:org.apache.solr.common.SolrException: Plugin init failure for [schema.xml] fieldType "text_ik": Plugin init failure for [schema.xml] analyzer/tokenizer: Error instantiating class: 'org.wltea.analyzer.lucene.IKTokenizerFactory'. Schema file is /solr/solr_home/coreUnibib/schema.xml
7 楼 chenbo19867758 2014-09-17  
建议直接导出jar包。
6 楼 lgnlgn 2014-08-08  
senhui19 写道
你好,最近发现solr升级到了4.9,尝试使用了下你写的插件,配置成功后,使用分词时出现了异常情况,不能能否做个升级适配呢?谢谢。


这事估计没人料理了,只能建议你把依赖改成4.9以后自行修改源码
5 楼 senhui19 2014-08-01  
你好,最近发现solr升级到了4.9,尝试使用了下你写的插件,配置成功后,使用分词时出现了异常情况,不能能否做个升级适配呢?谢谢。
4 楼 syncml 2014-06-09  
每个tokenizerFactory以及tokenfilterFactory 的属性中多包含了一个 conf=xxxx.conf 的项,xxxx.conf的内容是一个properties格式的配置:



conf文件能说得详细一点吗
3 楼 mlcsdev 2014-05-14  
xinggg22 写道
没提供maven的repo下载吗?

没有,你只要打包出来拿jar包来用就行了,暂没提供打包好的
2 楼 xinggg22 2014-05-14  
没提供maven的repo下载吗?
1 楼 qindongliang1922 2014-03-28  
猫猫,厉害 哈哈哈哈哈!

相关推荐

    mlcsseg, solr分词器大补贴, 包括IK ANSJ、过滤器,动态加载词库.zip

    1. **Solr分词器**:Solr是Apache Lucene的一个分支,是一个流行的全文检索服务器。分词器是Solr中用于对输入文本进行分析的组件,它将文本分解成一系列可搜索的词或短语。分词的质量直接影响到搜索引擎的性能和准确...

    基于主从博弈的共享储能与综合能源微网优化运行研究:MATLAB与CPLEX实现

    内容概要:本文详细探讨了在主从博弈框架下,共享储能与综合能源微网的优化运行及其仿真复现。通过MATLAB和CPLEX的联合使用,展示了微网运营商和用户聚合商之间的动态博弈过程。上层模型关注微网运营商的定价策略,旨在最大化利润,考虑售电收益、储能运维成本等因素。下层模型则聚焦于用户聚合商的响应,根据电价调整电热负荷并参与共享储能调度。文中还介绍了电热耦合约束、充放电互斥约束等关键技术细节,并通过迭代博弈实现了策略更新。最终仿真结果显示,在引入电制热设备后,用户侧热负荷弹性提升,博弈收敛速度加快,达到双赢效果。 适合人群:从事能源系统优化、博弈论应用、MATLAB编程的研究人员和技术人员。 使用场景及目标:适用于希望深入了解主从博弈在综合能源系统中应用的学者和工程师。目标是掌握如何通过数学建模和编程实现复杂的能源系统优化,理解电热耦合机制和共享储能的作用。 其他说明:文章提供了详细的代码片段和仿真结果,帮助读者更好地理解和复现实验。此外,还讨论了一些常见的调试问题和解决方案,如约束冲突等。

    【基于矢量射线的衍射积分 (VRBDI)】基于矢量射线的衍射积分 (VRBDI) 和仿真工具附Matlab代码.rar

    1.版本:matlab2014/2019a/2024a 2.附赠案例数据可直接运行matlab程序。 3.代码特点:参数化编程、参数可方便更改、代码编程思路清晰、注释明细。 4.适用对象:计算机,电子信息工程、数学等专业的大学生课程设计、期末大作业和毕业设计。

    【深度学习应用综述】多领域关键技术及应用场景汇总:从计算机视觉到金融风控的全面解析

    内容概要:深度学习在多个领域有着广泛应用。在计算机视觉方面,涵盖图像分类、目标检测、图像分割等任务,应用于自动驾驶、医疗影像分析等领域;在自然语言处理上,包括机器翻译、文本分类、文本生成等功能,服务于信息检索、内容创作等;语音识别与合成领域,实现了语音到文本的转换以及文本到语音的生成,推动了智能交互的发展;医疗领域,深度学习助力医学影像分析、疾病预测、个性化治疗及健康监测;金融领域,深度学习用于信用风险评估、欺诈检测、高频交易等,保障金融安全并优化投资策略;自动驾驶方面,环境感知与决策控制系统确保车辆安全行驶;娱乐与媒体领域,个性化推荐和内容生成提升了用户体验;工业与制造业中,质量检测和预测性维护提高了生产效率和产品质量。 适合人群:对深度学习及其应用感兴趣的初学者、研究人员以及相关领域的从业者。 使用场景及目标:帮助读者全面了解深度学习在不同行业的具体应用场景,明确各领域中深度学习解决的实际问题,为后续深入研究或项目实施提供方向指引。 其他说明:随着深度学习技术的持续进步,其应用范围也在不断扩大,文中提及的应用实例仅为当前主要成果展示,未来还有更多潜力待挖掘。

    【ARIMA-LSTM】合差分自回归移动平均方法-长短期记忆神经网络研究附Python代码.rar

    1.版本:matlab2014/2019a/2024a 2.附赠案例数据可直接运行matlab程序。 3.代码特点:参数化编程、参数可方便更改、代码编程思路清晰、注释明细。 4.适用对象:计算机,电子信息工程、数学等专业的大学生课程设计、期末大作业和毕业设计。

    周梁伟-大模型在融合通信中的应用实践.pdf

    周梁伟-大模型在融合通信中的应用实践

    基于S7-200 PLC与组态王的花式喷泉控制系统设计及应用

    内容概要:本文详细介绍了利用西门子S7-200 PLC和组态王软件构建的一个花式喷泉控制系统的设计与实现。首先阐述了系统的硬件组成,包括三个环形喷泉组、七彩LED灯带以及功放喇叭等组件,并给出了详细的IO分配表。接着深入解析了关键的梯形图程序逻辑,如自动模式循环、灯光控制、喷泉舞步等部分的具体实现方法。此外,还分享了一些实际调试过程中遇到的问题及其解决方案,例如电源隔离、电磁干扰处理等。最后展示了组态王界面上生动有趣的动画效果设计思路。 适合人群:对PLC编程和工业自动化感兴趣的工程师和技术爱好者。 使用场景及目标:适用于需要设计类似互动娱乐设施的专业人士,旨在帮助他们掌握从硬件选型、程序编写到界面美化的完整流程,从而能够独立完成类似的工程项目。 其他说明:文中不仅提供了理论知识讲解,还包括了许多实践经验教训,对于初学者来说非常有价值。同时,作者还在系统中加入了一些趣味性的元素,如隐藏模式等,增加了项目的吸引力。

    基于COMSOL的电弧熔池多物理场耦合仿真技术详解

    内容概要:本文详细介绍了利用COMSOL进行电弧熔池多物理场耦合仿真的方法和技术要点。首先解释了电弧熔池的本质及其复杂性,然后依次讲解了几何建模、材料属性设置、求解器配置以及后处理等方面的具体步骤和注意事项。文中提供了大量实用的MATLAB、Java和Python代码片段,帮助用户更好地理解和应用相关技术。此外,作者分享了许多实践经验,如分阶段激活物理场、使用光滑过渡函数处理相变、优化网格划分等,强调了参数选择和边界条件设定的重要性。 适合人群:从事电弧熔池仿真研究的专业人士,尤其是有一定COMSOL使用经验的研究人员。 使用场景及目标:适用于需要精确模拟电弧熔池行为的研究项目,旨在提高仿真精度并减少计算时间。主要目标是掌握多物理场耦合仿真的关键技术,解决实际工程中遇到的问题。 其他说明:文章不仅提供了详细的理论指导,还包括许多实用的操作技巧和常见错误的解决方案,有助于读者快速上手并深入理解电弧熔池仿真的难点和重点。

    9f148310e17f2960fea3ff60af384a37_098bb292f553b9f4ff9c67367379fafd.png

    9f148310e17f2960fea3ff60af384a37_098bb292f553b9f4ff9c67367379fafd

    spring-ai-hanadb-store-1.0.0-M7.jar中文-英文对照文档.zip

    # 【spring-ai-hanadb-store-1.0.0-M7.jar中文-英文对照文档.zip】 中包含: 中文-英文对照文档:【spring-ai-hanadb-store-1.0.0-M7-javadoc-API文档-中文(简体)-英语-对照版.zip】 jar包下载地址:【spring-ai-hanadb-store-1.0.0-M7.jar下载地址(官方地址+国内镜像地址).txt】 Maven依赖:【spring-ai-hanadb-store-1.0.0-M7.jar Maven依赖信息(可用于项目pom.xml).txt】 Gradle依赖:【spring-ai-hanadb-store-1.0.0-M7.jar Gradle依赖信息(可用于项目build.gradle).txt】 源代码下载地址:【spring-ai-hanadb-store-1.0.0-M7-sources.jar下载地址(官方地址+国内镜像地址).txt】 # 本文件关键字: spring-ai-hanadb-store-1.0.0-M7.jar中文-英文对照文档.zip,java,spring-ai-hanadb-store-1.0.0-M7.jar,org.springframework.ai,spring-ai-hanadb-store,1.0.0-M7,org.springframework.ai.vectorstore.hanadb,jar包,Maven,第三方jar包,组件,开源组件,第三方组件,Gradle,springframework,spring,ai,hanadb,store,中文-英文对照API文档,手册,开发手册,使用手册,参考手册 # 使用方法: 解压 【spring-ai-hanadb-store-1.0.0-M7.jar中文-英文

    azure-ai-openai-1.0.0-beta.7.jar中文文档.zip

    # 压缩文件中包含: 中文文档 jar包下载地址 Maven依赖 Gradle依赖 源代码下载地址 # 本文件关键字: jar中文文档.zip,java,jar包,Maven,第三方jar包,组件,开源组件,第三方组件,Gradle,中文API文档,手册,开发手册,使用手册,参考手册 # 使用方法: 解压最外层zip,再解压其中的zip包,双击 【index.html】 文件,即可用浏览器打开、进行查看。 # 特殊说明: ·本文档为人性化翻译,精心制作,请放心使用。 ·只翻译了该翻译的内容,如:注释、说明、描述、用法讲解 等; ·不该翻译的内容保持原样,如:类名、方法名、包名、类型、关键字、代码 等。 # 温馨提示: (1)为了防止解压后路径太长导致浏览器无法打开,推荐在解压时选择“解压到当前文件夹”(放心,自带文件夹,文件不会散落一地); (2)有时,一套Java组件会有多个jar,所以在下载前,请仔细阅读本篇描述,以确保这就是你需要的文件;

    3dmax插件复制属性.ms

    3dmax插件

    单相全桥PWM整流双闭环控制系统:电压环PI与电流环PR控制策略及其应用

    内容概要:本文详细介绍了单相全桥PWM整流器采用双闭环控制策略的具体实现方法和技术要点。电压环采用PI控制器来稳定直流侧电压,电流环则使用PR控制器确保交流电流与电压同相位并实现单位功率因数。文中提供了详细的MATLAB、C和Python代码片段,解释了各个控制器的设计思路和参数整定方法。此外,文章还讨论了突加负载测试、电压前馈补偿、PWM生成以及硬件选型等方面的内容,强调了系统的稳定性和快速响应能力。 适合人群:从事电力电子、自动控制领域的工程师和技术人员,尤其是对PWM整流器和双闭环控制感兴趣的读者。 使用场景及目标:适用于需要精确控制直流电压和交流电流的应用场景,如工业电源、新能源发电等领域。目标是提高系统的电能质量和动态响应速度,确保在负载变化时仍能保持稳定的输出。 其他说明:文章不仅提供了理论分析,还包括了大量的实际测试数据和波形图,帮助读者更好地理解和掌握双闭环控制的实际效果。同时,文中提到的一些调试技巧和注意事项对于实际工程应用非常有价值。

    easyocr安装包和模型

    easyocr安装包和模型

    AC-DIMMER交流调光灯stm32.7z

    AC_DIMMER交流调光灯stm32.7z

    仲量联行-负责任的房地产:实现社会价值,赋能建筑环境,创造积极的环境和社会影响.pdf

    仲量联行-负责任的房地产:实现社会价值,赋能建筑环境,创造积极的环境和社会影响

    C语言全部知识点复习资料.doc

    C语言全部知识点复习资料.doc

    【蓝桥杯EDA】客观题解析:第十二届省赛第一场真题.pdf

    【蓝桥杯EDA】客观题解析

    电-气-热综合能源系统调度:MATLAB与CPLEX优化模型及其应用

    内容概要:本文详细介绍了电-气-热综合能源系统的优化调度方法,重点探讨了如何利用MATLAB和CPLEX进行建模和求解。文章首先分别阐述了电网、气网和热网的建模方法,包括电网的直流潮流模型、气网的线性化处理以及热网的状态空间方程。接着深入讨论了各个网络之间的耦合关系,如电转气设备(P2G)、燃气轮机和电热锅炉的作用机制。文中还分享了一些实用技巧,如变量定义顺序对求解速度的影响、分段线性化的精度与效率权衡等。最后展示了完整的优化模型结构,并通过实例验证了模型的有效性和优越性。 适合人群:从事综合能源系统研究和开发的技术人员,尤其是熟悉MATLAB和CPLEX工具的研究者。 使用场景及目标:适用于希望深入了解并掌握电-气-热综合能源系统调度优化方法的专业人士。主要目标是提高能源利用效率,降低成本,增强系统的稳定性和可靠性。 其他说明:文章不仅提供了详细的理论解释和技术实现步骤,还分享了许多实践经验,帮助读者更好地理解和应用相关技术。

Global site tag (gtag.js) - Google Analytics