跟益达学Solr5之拼音分词

lxwt909

浏览: 577637 次
性别:
来自: 北京

最近访客更多访客>>

akingde

chenghu209

14252316

yinxin2745154

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

Solr

Solr Pinyin

应群友强烈要求，特此更新此篇博客。其实在我的Lucene5系列博客里我已经介绍了拼音分词，遗憾的是，大家不能举一反三，好吧，还是我亲自上马吧！

首先我们来看看我当初使用Lucene5是如何实现的，

在Solr5中，我们只需要为IKTokenizer扩展一个IKTokenizerFactory,为PinyinTokenFilter扩展一个PinyinTokenFilterFactory,为PinyinNGramTokenFilter扩展一个PinyinNGramTokenFilterFactory,其中IKTokenizerFactory我已经扩展过了，剩下需要做的就是自定义PinyinTokenFilterFactory和PinyinNGramTokenFilterFactory了。如果你不知道如何扩展，请参看Solr的StopFilterFactory类源码，照葫芦画瓢。OK，我来全程截图示范，我是如何扩展的？

既然是要扩展PinyinTokenFilterFactory，从类名就知道它是PinyinTokenFilter的工厂类，所以我们首先需要把我之前写的PinyinTokenFilter和PinyinNGramTokenFilter类copy到一个新的项目中来，如图：

我新建一个solr-analyzer-extra Java Project,把我之前写的几个类copy到如图红色框住的package中，那几个类你在我Lucene5系列博客中都可以找到源码，或者你到我的GitHub上也可以得到相关源码。我的GitHub地址待会儿我会在博客的结尾处贴出来，敬请关注哦！图片中显示还有ik和ansj两个package，这就是我为了前面几篇博客扩展的TokenizerFactory，你懂的！然后我们需要添加依赖的Jar包，如图：

之所以分Lucene5和Solr5两个包，就是为了方便打包Jar包，这样我就可以把lucene5包下的类单独打包成一个jar，solr5下打包成一个jar,当你仅仅只是在Lucene5下需要使用拼音分词，那solr5包下的类是用不到的，打包成两个jar是为了按需加载类，你懂的！特此说明。

OK，开始在Solr5包下扩展PinyinTokenFilterFactory，我扩展的源码如图：

扩展的PinyinNGramTokenFilterFactory源码如图：

对应的PinyinNGramTokenFilter类我稍作了修改，主要是添加了nGramNumber参数，用于控制是否对纯数字进行nGram处理，有时候可能并不希望对类似 2011 这样的数字进行nGram,当然如果你需要对纯数字字符串进行nGram处理，请把nGramNumber参数设置为true即可，默认该值为false。PinyinNGramTokenFilter类我修改的地方如下：

其中定义了一个常量类Constant，就是不想把默认值常量写死在各个类里，所以统一放到了一个常量类里，如图：

上面涉及到的所有源码我待会儿都会在底下附件里上传分享给你们。OK,到此该扩展的类都编写完毕了，我们需要将他们打包成jar,如图：

然后你就会在你的桌面上看到这个jar包，

OK,同理，对solr5包下的类进行打包，提供给使用Solr5的用户使用，如图：

然后两个jar包就都打好了，如图：

接下来，我们就需要把我们打好的jar包导入到我们的core的lib目录下，如图：

由于我们的汉字转拼音使用到了pinyin4j类库，所以我们还需要把pinyin4j的jar包也复制到当前core的lib目录下，如图：

由于我们是先进行中文分词，然后再对分出来的中文词语进行拼音转换，而这里我以IK分词器为例，所以我们还需要把IK的jar包也copy进去，如图：

OK,jar包导入完毕后，我们需要在我们的schema.xml中定义域类型，配置示例如图：

这是默认最基本的配置，当然PinyinTokenFilterFactory和PinyinNGramTokenFilterFactory这两个工厂类是有可选的配置参数可以设置的，请看图：

因此，你也可以这样配置：

域类型定义好后，你需要在你的某个域上应用这个新定义的text_pinyin域类型，如图：

OK,启动你的tomcat,开始进行拼音分词测试，如图：

OK，到此关于Solr5中关于拼音分词以及拼音搜索就讲解到这儿了，上述涉及到的jar包和源码请到底下的附件里去下载。solr-analyzer-extra Java Project依赖的jar体积太大，ITEye里无法上传，我已上传到我的百度网盘：看这里，看这里！！！

如果你在学习过程中有任何问题，请通过以下方式联系到我：

益达的GitHub地址：请猛戳我，用力，吃点劲儿！！！

益达Q-Q: 7-3-6-0-3-1-3-0-5

益达的Q-Q群： 1-0-5-0-9-8-8-0-6

IKAnalyzer-5.0.jar (1.1 MB)
下载次数: 195

solr-analyzer-ik-5.1.0.jar (912 Bytes)
下载次数: 192

analyzer-pinyin-lucene-5.1.0.jar (6.3 KB)
下载次数: 211

analyzer-pinyin-solr-5.1.0.jar (2 KB)
下载次数: 184

pinyin4j-2.5.0.jar (204.9 KB)
下载次数: 167

conf.rar (23.3 KB)
下载次数: 174

solr-analyzer-extra.rar (18.4 KB)
下载次数: 183

查看图片附件

10
顶

7
踩

分享到：

Heritrix1.14.4环境搭建 | 跟益达学Solr5之使用MMSeg4J分词器

2015-06-27 13:15
浏览 5825
评论(3)
分类:编程语言
查看更多

3 楼 fengshizty 2016-09-23

楼主辛苦啦

，能否共享下源码

2 楼 play1369 2016-01-25

多音字有问题，比如：重庆 zhongqing
没有chongqing

1 楼 oaibf 2015-07-01

拼音搜索怎么搜出对对应的中文呢？

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

工业自动化中基于威纶通触摸屏的水箱液位PID控制仿真程序设计与实现: 内容概要：本文详细介绍了如何利用威纶通触摸屏及其配套软件EasyBuilder Pro构建一个水箱液位控制的PID仿真程序。主要内容涵盖触摸屏界面设计、PID算法实现、通信配置以及仿真模型搭建等方面。文中不仅提供了具体的代码示例，还分享了许多调试经验和优化技巧，如抗积分饱和处理、通信同步设置等。此外，作者还强调了实际应用中的注意事项，例如参数范围限制、突发情况模拟等。适合人群：从事工业自动化领域的工程师和技术人员，尤其是对PID控制器有一定了解并希望深入掌握其实际应用的人群。使用场景及目标：适用于需要进行水箱液位控制系统设计、调试和优化的工作环境。主要目标是帮助读者理解和掌握PID控制的基本原理及其在实际工程项目中的具体实现方法。其他说明：附带完整的工程文件可供下载，便于读者快速上手实践。文中提到的所有代码片段均经过实际验证，确保可靠性和实用性。

2024年中国城市低空经济发展指数报告: 内容概要：《2024年中国城市低空经济发展指数报告》由36氪研究院发布，指出低空经济作为新质生产力的代表，已成为中国经济新的增长点。报告从发展环境、资金投入、创新能力、基础支撑和发展成效五个维度构建了综合指数评价体系，评估了全国重点城市的低空经济发展状况。北京和深圳在总指数中名列前茅，分别以91.26和84.53的得分领先，展现出强大的资金投入、创新能力和基础支撑。低空经济主要涉及无人机、eVTOL（电动垂直起降飞行器）和直升机等产品，广泛应用于农业、物流、交通、应急救援等领域。政策支持、市场需求和技术进步共同推动了低空经济的快速发展，预计到2026年市场规模将突破万亿元。适用人群：对低空经济发展感兴趣的政策制定者、投资者、企业和研究人员。使用场景及目标：①了解低空经济的定义、分类和发展驱动力；②掌握低空经济的主要应用场景和市场规模预测；③评估各城市在低空经济发展中的表现和潜力；④为政策制定、投资决策和企业发展提供参考依据。其他说明：报告强调了政策监管、产业生态建设和区域融合错位的重要性，提出了加强法律法规建设、人才储备和基础设施建设等建议。低空经济正加速向网络化、智能化、规模化和集聚化方向发展，各地应找准自身比较优势，实现差异化发展。

多智能体协同编队控制：无人机编队背后的Python实现与关键技术解析: 内容概要：本文详细介绍了多智能体协同编队控制的技术原理及其Python实现。首先通过生动形象的例子解释了编队控制的核心概念，如一致性算法、虚拟结构法、预测补偿等。接着深入探讨了编队形状的设计方法，包括如何利用虚拟结构法生成特定编队形状，并讨论了通信质量和参数调试的重要性。此外，还涉及了避障策略、动态权重分配以及故障检测等实际应用中的挑战和解决方案。最后，通过具体实例展示了如何将理论应用于实际项目中，如无人机编队表演、自动驾驶车队等。适用人群：对多智能体系统、编队控制感兴趣的科研人员、工程师及高校师生。使用场景及目标：适用于研究和开发多智能体协同编队控制系统的场景，旨在帮助读者理解并掌握相关技术和实现方法，提高系统的稳定性和可靠性。其他说明：文中不仅提供了详细的代码示例，还分享了许多实践经验和技术细节，有助于读者更好地理解和应用这些技术。同时强调了参数调试、通信质量、预测补偿等方面的关键因素对于系统性能的影响。

四旋翼飞行器模型预测控制(MPC)的Matlab实现及其设定点收敛保证: 内容概要：本文详细介绍了名为'MPC_ACC_2020-master'的四旋翼飞行器模型预测跟踪控制器(Matlab实现)。四旋翼飞行器由于其高度非线性和强耦合特性，在复杂环境中难以实现精准控制。模型预测控制（MPC）通过预测未来状态并在每一步进行在线优化，解决了这一难题。文中展示了关键代码片段，解释了系统参数定义、初始化、预测模型构建、成本函数构建、优化求解及控制输入的应用。此外，还探讨了MPC_ACC_2020-master如何通过精心设计的成本函数和优化算法确保四旋翼飞行器状态收敛到设定点。适合人群：从事飞行器控制领域的研究人员和技术爱好者，尤其是对模型预测控制感兴趣的开发者。使用场景及目标：适用于四旋翼飞行器的轨迹跟踪任务，旨在提高飞行器在复杂环境下的稳定性与准确性。具体应用场景包括但不限于无人机竞速、自动巡航、物流配送等。其他说明：尽管该项目主要用于科研目的，但其简洁高效的代码结构也为实际工程应用提供了良好借鉴。同时，项目中存在一些待改进之处，如状态估计部分未考虑真实情况下的噪声干扰，后续版本计划移植到C++并集成进ROS系统。

基于MATLAB2020b的CNN-LSTM与GTO算法优化的电力负荷预测研究: 内容概要：本文探讨了基于MATLAB2020b平台，采用CNN-LSTM模型结合人工大猩猩部队(GTO)算法进行电力负荷预测的方法。首先介绍了CNN-LSTM模型的基本结构及其在处理多变量输入（如历史负荷和气象数据）方面的优势。随后详细解释了如何通过GTO算法优化超参数选择，提高模型预测精度。文中展示了具体的MATLAB代码示例，包括数据预处理、网络层搭建、训练选项设定等方面的内容，并分享了一些实践经验和技术细节。此外，还讨论了模型的实际应用效果，特别是在某省级电网数据上的测试结果。适合人群：从事电力系统数据分析的研究人员、工程师，以及对深度学习应用于时间序列预测感兴趣的开发者。使用场景及目标：适用于需要精确预测未来电力负荷的情况，旨在帮助电力公司更好地规划发电计划，优化资源配置，保障电网安全稳定运行。通过本研究可以学习到如何构建高效的CNN-LSTM模型，并掌握利用GTO算法进行超参数优化的具体步骤。其他说明：文中提到的一些技巧和注意事项有助于避免常见错误，提高模型性能。例如，合理的数据预处理方式、适当的超参数范围设定等都能显著改善最终的预测效果。

机器学习（深度学习）：用于脑肿瘤的带有边界框的磁共振成像: 数据集一个高质量的医学图像数据集，专门用于脑肿瘤的检测和分类研究以下是关于这个数据集的详细介绍：该数据集包含5249张脑部MRI图像，分为训练集和验证集。每张图像都标注了边界框（Bounding Boxes），并按照脑肿瘤的类型分为四个类别：胶质瘤（Glioma）、脑膜瘤（Meningioma）、无肿瘤（No Tumor）和垂体瘤（Pituitary）。这些图像涵盖了不同的MRI扫描角度，包括矢状面、轴面和冠状面，能够全面覆盖脑部解剖结构，为模型训练提供了丰富多样的数据基础。高质量标注：边界框是通过LabelImg工具手动标注的，标注过程严谨，确保了标注的准确性和可靠性。多角度覆盖：图像从不同的MRI扫描角度拍摄，包括矢状面、轴面和冠状面，能够全面覆盖脑部解剖结构。数据清洗与筛选：数据集在创建过程中经过了彻底的清洗，去除了噪声、错误标注和质量不佳的图像，保证了数据的高质量。该数据集非常适合用于训练和验证深度学习模型，以实现脑肿瘤的检测和分类。它为开发医学图像处理中的计算机视觉应用提供了坚实的基础，能够帮助研究人员和开发人员构建更准确、更可靠的脑肿瘤诊断系统。这个数据集为脑肿瘤检测和分类的研究提供了宝贵的资源，能够帮助研究人员开发出更准确、更高效的诊断工具，从而为脑肿瘤患者的早期诊断和治疗规划提供支持。

STM32F103 CAN通讯与IAP升级Bootloader源码解析及硬件设计: 内容概要：本文详细介绍了STM32F103的CAN通讯和IAP升级Bootloader的源码实现及其硬件设计。首先，针对CAN通讯部分，文章深入探讨了CAN外设的初始化配置，包括波特率、位时间、过滤器等重要参数的设置方法，并提供了一段完整的初始化代码示例。接着，对于IAP升级Bootloader，文中讲解了通过CAN总线接收HEX文件并写入Flash的具体实现步骤，以及如何安全地从Bootloader跳转到应用程序。此外，文章还附上了原理图和PCB文件，有助于理解和优化硬件设计。最后，作者分享了一些实用的调试技巧和注意事项，如终端电阻的正确使用、CRC校验的应用等。适合人群：嵌入式系统开发者、硬件工程师、从事STM32开发的技术人员。使用场景及目标：适用于正在开发STM32相关项目的工程师，尤其是那些需要实现CAN通讯和固件在线升级功能的人群。通过学习本文提供的源码和技术要点，可以帮助他们快速掌握相关技能，提高开发效率。其他说明：本文不仅提供了详细的代码示例，还包含了丰富的实践经验分享，能够帮助读者更好地理解和解决实际开发中遇到的问题。

全能屏幕录像工具，支持语音、监控、摄像头、画笔等多功能源码: 工具集语音、监控、摄像头、画笔等功能于一体！清晰语音录入，确保声画同步；监控级画面录制，操作细节无遗漏；摄像头多视角呈现，让内容更生动。录制时，画笔可标注重点，快速传递关键信息。自带视频播放，无需第三方；快捷键操作便捷，录制高效。强大解码器兼容多格式，不同设备随心播放。无论是教学、办公还是创作

西门子S7-1500 PLC在制药厂洁净空调BMS系统中的温湿度精准控制与优化: 内容概要：本文详细介绍了西门子S7-1500 PLC在制药厂洁净空调建筑管理系统(BMS)中的应用案例。重点讨论了硬件配置（1500 CPU + ET200SP分布式IO）、温湿度控制策略（串级PID、分程调节）、以及具体的编程实现（SCL语言）。文中分享了多个技术细节，如PT100温度采集、PID控制算法优化、报警管理和HMI界面设计等。此外，作者还提到了一些调试过程中遇到的问题及其解决方案，如PID_Compact块的手动模式设定值跳变问题、博图V15.1的兼容性问题等。适合人群：从事工业自动化领域的工程师和技术人员，特别是那些对PLC编程、温湿度控制和洁净空调系统感兴趣的读者。使用场景及目标：适用于制药厂或其他对温湿度控制要求严格的行业。主要目标是确保洁净空调系统的高效运行，将温湿度波动控制在极小范围内，保障生产环境的安全性和稳定性。其他说明：本文不仅提供了详细的编程代码和硬件配置指南，还分享了许多实践经验，帮助读者更好地理解和应用相关技术。同时，强调了在实际项目中需要注意的关键点和潜在问题。

2025年6G近场技术白皮书2.0.pdf: 2025年6G近场技术白皮书2.0.pdf

少儿编程scratch项目源代码文件案例素材-Frogeon.zip: 少儿编程scratch项目源代码文件案例素材-Frogeon.zip

2025年感知技术十大趋势深度分析报告.pdf: 2025年感知技术十大趋势深度分析报告.pdf

Matlab实现车间调度问题遗传算法(JSPGA)：源码解析与应用: 内容概要：本文详细介绍了一种用于解决车间调度问题的遗传算法(Matlab实现)，即JSPGA。文章首先介绍了遗传算法的基本概念及其在车间调度问题中的应用场景。接着，作者展示了完整的Matlab源码，包括参数设置、种群初始化、选择、交叉、变异、适应度计算以及结果输出等模块。文中还特别强调了适应度计算方法的选择，采用了最大完工时间的倒数作为适应度值，并通过三维甘特图和迭代曲线直观展示算法性能。此外，文章提供了多个调参技巧和改进方向，帮助读者更好地理解和应用该算法。适合人群：对遗传算法感兴趣的研究人员、工程师以及希望深入理解车间调度问题求解方法的技术爱好者。使用场景及目标：适用于需要优化多台机器、多个工件加工顺序与分配的实际工业生产环境。主要目标是通过遗传算法找到最优或近似最优的调度方案，从而减少最大完工时间，提高生产效率。其他说明：文章不仅提供了详细的理论解释和技术细节，还包括了大量实用的代码片段和图表，使读者能够轻松复现实验结果。同时，作者还分享了一些个人经验和建议，为后续研究提供了有价值的参考。

永磁同步电机MTPA控制算法及其Simulink仿真模型设计与实现: 内容概要：本文深入探讨了永磁同步电机（PMSM）的最大转矩电流比（MTPA）控制算法，并详细介绍了基于Simulink的仿真模型设计。首先，文章阐述了PMSM的数学模型，包括电压方程和磁链方程，这是理解控制算法的基础。接着，解释了矢量控制原理，通过将定子电流分解为励磁电流和转矩电流分量，实现对电机的有效控制。随后，重点讨论了MTPA控制的目标和方法，即在限定电流条件下最大化转矩输出。此外，文章还涉及了前馈补偿、弱磁控制和SVPWM调制等关键技术，提供了具体的实现代码和仿真思路。最后，通过一系列实验验证了各控制策略的效果。适合人群：从事电机控制系统设计的研究人员和技术人员，尤其是对永磁同步电机和Simulink仿真感兴趣的工程师。使用场景及目标：适用于希望深入了解PMSM控制算法并在Simulink环境中进行仿真的技术人员。主要目标是掌握MTPA控制的核心原理，学会构建高效的仿真模型，优化电机性能。其他说明：文中不仅提供了详细的理论推导，还有丰富的代码示例和实践经验，有助于读者快速理解和应用相关技术。同时，强调了实际工程中常见的问题及解决方案，如负载扰动、弱磁控制和SVPWM调制等。

基于Matlab的三机并联风光储混合系统仿真及关键技术解析: 内容概要：本文详细介绍了三机并联的风光储混合系统在Matlab中的仿真方法及其关键技术。首先，针对光伏阵列模型，讨论了其核心二极管方程以及MPPT（最大功率点跟踪）算法的应用，强调了环境参数对输出特性的影响。接着，探讨了永磁同步风机的矢量控制，尤其是转速追踪和MPPT控制策略。对于混合储能系统，则深入讲解了超级电容和蓄电池的充放电策略，以及它们之间的协调机制。此外，还涉及了PQ控制的具体实现，包括双闭环结构的设计和锁相环的优化。最后，提供了仿真过程中常见的问题及解决方案，如求解器选择、参数敏感性和系统稳定性等。适合人群：从事电力电子、新能源系统设计与仿真的工程师和技术人员，以及相关专业的研究生。使用场景及目标：适用于希望深入了解风光储混合系统工作原理的研究人员，旨在帮助他们掌握Matlab仿真技巧，提高系统设计和优化的能力。其他说明：文中不仅提供了详细的理论推导和代码示例，还分享了许多实践经验，有助于读者更好地理解和应用所学知识。

亚洲电子商务发展案例研究: 本书由国际发展研究中心（IDRC）和东南亚研究院（ISEAS）联合出版，旨在探讨亚洲背景下电子商务的发展与实践。IDRC自1970年起，致力于通过科学技术解决发展中国家的社会、经济和环境问题。书中详细介绍了IDRC的ICT4D项目，以及如何通过项目如Acacia、泛亚网络和泛美项目，在非洲、亚洲和拉丁美洲推动信息通信技术（ICTs）的影响力。特别强调了IDRC在弥合数字鸿沟方面所作出的贡献，如美洲连通性研究所和非洲连通性项目。ISEAS作为东南亚区域研究中心，专注于研究该地区的发展趋势，其出版物广泛传播东南亚的研究成果。本书还收录了电子商务在亚洲不同国家的具体案例研究，包括小型工匠和开发组织的电子商务行动研究、通过互联网直接营销手工艺品、电子营销人员的创新方法以及越南电子商务发展的政策影响。

2025工业5G终端设备发展报告.pdf: 2025工业5G终端设备发展报告.pdf

Java经典面试笔试题及答案: 内容概要：本文档《Java经典面试笔试题及答案.docx》涵盖了广泛的Java基础知识和技术要点，通过一系列面试题的形式，深入浅出地讲解了Java的核心概念。文档内容包括但不限于：变量的声明与定义、对象序列化、值传递与引用传递、接口与抽象类的区别、继承的意义、方法重载的优势、集合框架的结构、异常处理机制、线程同步、泛型的应用、多态的概念、输入输出流的使用、JVM的工作原理等。此外，还涉及了诸如线程、GUI事件处理、类与接口的设计原则等高级主题。文档不仅解释了各个知识点的基本概念，还提供了实际应用场景中的注意事项和最佳实践。适合人群：具备一定Java编程基础的学习者或开发者，特别是准备参加Java相关岗位面试的求职者。使用场景及目标：①帮助读者巩固Java基础知识，提升对Java核心技术的理解；②为面试做准备，提供常见面试题及其详细解答；③指导开发者在实际项目中应用Java的最佳实践，优化代码质量和性能。其他说明：文档内容详实，涵盖了Java开发中的多个方面，从基础语法到高级特性均有涉及。建议读者在学习过程中结合实际编程练习，加深对各个知识点的理解和掌握。同时，对于复杂的概念和技术，可以通过查阅官方文档或参考书籍进一步学习。

MATLAB深度学习代码生成实践：图像分类、车辆检测与车道线识别的C++部署: 内容概要：本文详细介绍了如何利用MATLAB将预训练的深度学习模型（如ResNet50、YOLOv2和LaneNet）转化为高效的C++代码，并部署到嵌入式系统中。首先，通过ResNet50展示了图像分类任务的代码生成流程，强调了输入图像的预处理和归一化步骤。接着，YOLOv2用于车辆检测，讨论了anchor box的可视化及其优化方法，特别是在Jetson Nano平台上实现了显著的速度提升。最后，LaneNet应用于车道线识别，探讨了实例分割和聚类算法的实现细节，以及如何通过OpenMP和CUDA进行性能优化。文中还提供了多个实用技巧，如选择合适的编译器版本、处理自定义层和支持动态输入等。适合人群：具有一定MATLAB和深度学习基础的研发人员，尤其是关注嵌入式系统和高性能计算的应用开发者。使用场景及目标：适用于希望将深度学习模型高效部署到嵌入式设备的研究人员和工程师。主要目标是提高模型推理速度、降低内存占用，并确保代码的可移植性和易维护性。其他说明：文中不仅提供了详细的代码示例和技术细节，还分享了许多实践经验，帮助读者避免常见的陷阱。此外，还提到了一些高级优化技巧，如SIMD指令集应用和内存管理策略，进一步提升了生成代码的性能。

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论