Solr的自动完成实现方式（Suggester方式）

wbj0110

浏览: 1646479 次
性别:
来自: 上海

最近访客更多访客>>

一往无前bhz

ninja2006

loginboot

u012363178

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

sorl

Solr的自动完成实现方式（第三部分：Suggester方式续）

组件配置
在上一期的配置组件中添加如下的参数：

<str name="sourceLocation">dict.txt</str>

这样我们的配置就变成了：

<searchComponent name="suggest" class="solr.SpellCheckComponent">   
<lst name="spellchecker">   
<str name="name">suggest</str>   
<str name="classname">org.apache.solr.spelling.suggest.Suggester</str>    
<str name="lookupImpl">org.apache.solr.spelling.suggest.tst.TSTLookup</str>   
<str name="field">name_autocomplete</str>   
<str name="sourceLocation">dict.txt</str>   
</lst>   
</searchComponent>

使用这个参数，我们让suggest组件使用名叫dict.txt的文件作为solr的配置字典。

handler配置
handler的配置也需要添加额外的一个参数：

<str name="spellcheck.onlyMorePopular">true</str>

完整的配置为：

<requestHandler name="/suggest" class="org.apache.solr.handler.component.SearchComponent">   
<lst name="defaults">   
<str name="spellcheck">true</str>   
<str name="spellcheck.dictionary">suggest</str>    
<str name="spellcheck.count">10</str>   
<str name="spellcheck.onlyMorePopular">true</str>   
</lst>   
<arr name="components">   
<str>suggest</str>   
</arr>   
</requestHandler>

这个参数告诉solr，当查询的结果数多于设定的count数时，返回点击数更多的那些。

Dictionary
我们告诉solr来使用这个字段，那么这个字段长的什么样呢？下面来看一个例子：

# sample dict 
Hard disk hitachi 
Hard disk wd    2.0 
Hard disk jjdd    3.0

这个字典的结果是什么样的呢？每个词组放在单独的一行中，每行以改词组的权重为结束(权重与词组之间以TAB字符分隔)，这个权重就是跟spellcheck.onlyMorePopular=true 香港的参数，默认值为1.0。该字段必须以UTF-8的编码格式存储。每行前有#字符的将被忽略(注释行)。

数据
以这种方式，我们不需要数据，字段就是数据。

运行
在重新构建suggester之后，我们来看一下它的运行情况，输入命令：

/suggest?q=Har

得到的结果为：

<?xml version="1.0" encoding="UTF-8"?>   
<response>   
<lst name="responseHeader">    
<int name="status">0</int>    
<int name="QTime">0</int>   
</lst>   
<lst name="spellcheck">   
<lst name="suggestions">   
<lst name="Dys">      
<int name="numFound">3</int>     
<int name="startOffset">0</int>      
<int name="endOffset">3</int>       
<arr name="suggestion">       
<str>Hard disk jjdd</str>     
<str>Hard disk wd</str>   
<str>Hard disk hitachi</str>     
</arr>    
</lst>   
</lst>   
</lst>   
</response>

结束语
跟预期一样，suggest的结果是按权重排序的。这里的大小写敏感(注意首字母).

你有什么建议呢？如果我们有一个很好的字典，这个字典的权重是基于用户的查询行为产生的，那么用户肯定会喜欢它！如果没有好的字典，还是不要用这种方式的好。

分享到：

SESSIONS.ser 的问题 | 时代周刊2010年度50最佳网站

2013-09-10 09:45
浏览 1045
评论(0)
分类:编程语言
查看更多

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

solr搜索自动补全: 开发者需要在Solr端配置相应的自动补全逻辑，通常需要使用Solr的suggester组件，它支持多种搜索建议算法，比如Term Query Suggester、Document Lookup Suggester等。 5. 执行效果。在前端页面配置完成后，当用户...

solr7.5_ik分词器,suggest配置源文件文件: 描述中提到“已经配置好了，可以在Windows/Linux直接启动”，这意味着所有必要的配置工作都已经完成，用户只需下载解压后的`solr-7.5.0`压缩包，在Windows或Linux环境下启动Solr服务，即可使用Ik分词器和Suggest功能...

Ajax+Lucene 打造搜索引擎: 此外，还可以添加自动补全功能，利用Lucene的PrefixQuery或Suggester模块，当用户输入查询时提供可能的匹配项。在实际开发中，还需要考虑一些额外的细节，如错误处理、性能优化（如使用缓存、分页等）、安全性和可...

基于西门子S7-200 PLC和组态王的八层电梯控制系统设计与实现: 内容概要：本文详细介绍了基于西门子S7-200 PLC和组态王软件构建的八层电梯控制系统。首先阐述了系统的硬件配置，包括PLC的IO分配策略，如输入输出信号的具体分配及其重要性。接着深入探讨了梯形图编程逻辑，涵盖外呼信号处理、轿厢运动控制以及楼层判断等关键环节。随后讲解了组态王的画面设计，包括动画效果的实现方法，如楼层按钮绑定、轿厢移动动画和门开合效果等。最后分享了一些调试经验和注意事项，如模拟困人场景、防抖逻辑、接线艺术等。适合人群：从事自动化控制领域的工程师和技术人员，尤其是对PLC编程和组态软件有一定基础的人群。使用场景及目标：适用于需要设计和实施小型电梯控制系统的工程项目。主要目标是帮助读者掌握PLC编程技巧、组态画面设计方法以及系统联调经验，从而提高项目的成功率。其他说明：文中提供了详细的代码片段和调试技巧，有助于读者更好地理解和应用相关知识点。此外，还强调了安全性和可靠性方面的考量，如急停按钮的正确接入和硬件互锁设计等。

无人驾驶领域中动力学MPC算法实现蛇形线路径跟踪: 内容概要：本文深入探讨了无人驾驶车辆使用动力学MPC（模型预测控制）算法进行蛇形线路径跟踪的技术细节。首先介绍了蛇形线的特点及其对无人驾驶车辆带来的挑战，随后详细讲解了动力学MPC算法的基础理论，包括车辆状态表示、运动方程建模以及控制输入的选择。接着重点阐述了如何通过定义合适的目标函数并加入适当的约束条件来优化MPC算法，使其能够高效地完成蛇形线路径跟踪任务。此外，文中还讨论了一些常见的错误做法和技术改进措施，如引入航向角误差补偿项、采用松弛变量处理约束条件等。最后，作者分享了多个实用的小技巧，例如预测时域内的速度适配和平滑处理、适当降低控制频率以提高跟踪精度等。适合人群：对无人驾驶技术和控制算法感兴趣的科研人员、工程师及高校学生。使用场景及目标：适用于研究无人驾驶车辆路径规划与控制领域的项目开发，旨在帮助读者掌握动力学MPC算法的具体应用方法，从而更好地解决实际工程问题。其他说明：文章不仅提供了详细的理论推导和代码实现，还结合具体案例进行了充分的实验验证，确保所提出的解决方案具有较高的可行性和可靠性。

BYVIN电动四轮车控制器代码详解：STM32F4硬件与软件设计: 内容概要：本文详细介绍了BYVIN（比德文）电动四轮车控制器的技术细节，涵盖了硬件设计和软件实现两大部分。硬件方面，提供了PCB文件和PDF原理图，展示了电路板布局、元件位置及电路连接关系。软件方面，代码结构清晰，模块化设计良好，包括初始化、速度数据处理、PWM配置、故障保护机制等功能模块。文中还提到了一些独特的设计细节，如PWM死区补偿、故障分级处理、卡尔曼滤波估算电池电量等。此外，代码仓库中还包括了详细的注释和调试技巧，如CAN总线实时数据传输、硬件级关断+软件状态机联动等。适合人群：具备一定嵌入式开发基础的研发人员，尤其是对STM32F4系列单片机和电动车辆控制系统感兴趣的工程师。使用场景及目标：适用于希望深入了解电动四轮车控制器设计原理和技术实现的研究人员和开发者。目标是掌握电动四轮车控制器的硬件设计方法和软件编程技巧，提升实际项目开发能力。其他说明：本文不仅提供了代码和技术细节，还分享了许多实战经验和设计思路，有助于读者更好地理解和应用这些技术。

基于S7 300 PLC与组态王的车门包边机控制系统设计及应用: 内容概要：本文详细介绍了基于S7 300 PLC和组态王的车门包边机控制系统的设计与实现。主要内容涵盖I/O分配、梯形图编程、接线图设计以及组态王的画面构建。文中通过具体的实例展示了如何利用PLC实现车门包边机的精确控制，包括启动逻辑、电机与气缸控制逻辑等。此外，还讨论了接线图中的防干扰措施、梯形图中的特殊逻辑设计以及组态王中的动态效果实现方法。最终，通过合理的硬件配置和软件编程，实现了高效、稳定且直观的车门包边机控制系统。适合人群：从事工业自动化领域的工程师和技术人员，尤其是熟悉PLC编程和组态软件使用的专业人士。使用场景及目标：适用于汽车制造生产线中的车门包边机控制系统的开发与维护。目标是提高生产设备的自动化水平，增强系统的稳定性和可靠性，减少人工干预，提升生产效率。其他说明：本文不仅提供了详细的理论讲解，还包括了许多实际操作中的经验和技巧，有助于读者更好地理解和应用相关技术。

基于C#实现的照片自动分拣程序+源码+项目文档（毕业设计&课程设计&项目开发）: 基于C#实现的照片自动分拣程序+源码+项目文档，适合毕业设计、课程设计、项目开发。项目源码已经过严格测试，可以放心参考并在此基础上延申使用，详情见md文档简单易用的照片自动分类工具，它能够自动读取照片的拍摄日期信息，并按照年月结构将照片整理到对应的文件夹中，帮助用户轻松管理大量照片文件。主要功能自动分类：根据照片的拍摄时间，自动将照片分类到对应的年月文件夹中多格式支持：支持 JPG、JPEG、PNG、GIF 等常见图片格式智能处理：自动读取照片 EXIF 信息获取拍摄日期当无法读取 EXIF 信息时，自动使用文件创建时间智能处理文件重名冲突高效处理：采用并行处理技术，提高大量照片的处理速度优化文件读取和移动操作，减少系统资源占用自动调整并行任务数量，平衡系统负载

KUKA系统软件安装手册.pdf: KUKA机器人相关文档

Tripple Farm:Match 3 Combination Game Complete Project 合成小镇三消Unity合成消除游戏项目游戏插件模版C#: Tripple Farm:Match 3 Combination Game Complete Project 合成小镇三消Unity合成消除游戏项目游戏插件模版C# 支持Unity2020.3.4或更高您知道像三合镇这样的著名益智游戏，并且您想制作一个自己的游戏。就是这样。这个包正好适合您。这是一个完整的项目，您可以在零分钟内将其上传到 appstore 或 googleplay 商店。基本规则： 3个或以上相同的道具可以匹配升级为新的道具。动物如果被困住，也可以合并。羽毛： -移动（android/ios）就绪。 - 包含所有源代码。 -超过 12 座建筑/军团需要升级。 -三种特殊物品可以提供帮助。 - 三个不同的主题（场景和动物） -unity iap 支持 -Unity UI -广告位已准备好 -包含详细文档

基于下垂控制的三相逆变器电压电流双闭环仿真及MATLAB/Simulink/PLECS实现: 内容概要：本文详细介绍了基于下垂控制的三相逆变器电压电流双闭环控制的仿真方法及其在MATLAB/Simulink和PLECS中的具体实现。首先解释了下垂控制的基本原理，即有功调频和无功调压，并给出了相应的数学表达式。随后讨论了电压环和电流环的设计与参数整定，强调了两者带宽的差异以及PI控制器的参数选择。文中还提到了一些常见的调试技巧，如锁相环的响应速度、LC滤波器的谐振点处理、死区时间设置等。此外，作者分享了一些实用的经验，如避免过度滤波、合理设置采样周期和下垂系数等。最后，通过突加负载测试展示了系统的动态响应性能。适合人群：从事电力电子、微电网研究的技术人员，尤其是有一定MATLAB/Simulink和PLECS使用经验的研发人员。使用场景及目标：适用于希望深入了解三相逆变器下垂控制机制的研究人员和技术人员，旨在帮助他们掌握电压电流双闭环控制的具体实现方法，提高仿真的准确性和效率。其他说明：本文不仅提供了详细的理论讲解，还结合了大量的实战经验和调试技巧，有助于读者更好地理解和应用相关技术。

EP100伺服驱动器C源代码优化与硬件改进：从Bug修复到性能增强: 内容概要：本文详细记录了作者对EP100伺服驱动器进行的一系列优化和改进。主要内容包括：修复原厂代码中的多个致命Bug，如定时器配置冲突、PWM信号不触发、电流采样误差等问题；优化电机启动、增量编码器找零、串口通信、相序反转等功能；并对硬件进行了改进，如调整MOS管布局、优化滤波电容位置等。通过这些改动，显著提高了系统的稳定性、精度和可靠性。适合人群：具有一定嵌入式系统开发经验的工程师，尤其是熟悉STM32单片机和伺服控制系统的技术人员。使用场景及目标：适用于需要对现有伺服驱动器进行性能优化和技术改造的项目。主要目标是提高系统的稳定性和精度，解决原厂代码中存在的各种问题，确保伺服驱动器能够在高负载条件下正常工作。其他说明：文中提供了详细的代码片段和硬件改进措施，帮助读者更好地理解和应用相关技术。同时，作者分享了许多实际操作中的经验和技巧，对于从事类似项目的工程师具有很高的参考价值。

光储直流微电网中基于Simulink的蓄电池与超级电容协同仿真实现及MPPT控制优化: 内容概要：本文详细介绍了光储直流微电网中利用Simulink进行仿真建模的方法，重点探讨了光伏系统的最大功率点跟踪(MPPT)控制以及蓄电池和超级电容的功率分配策略。文中提供了具体的MATLAB代码实现，包括MPPT控制算法和低通滤波器(LPF)用于功率分配的具体参数设置。此外，还讨论了仿真过程中遇到的问题及解决方案，如避免系统震荡、优化直流母线电压控制等。适合人群：从事电力电子、新能源发电、微电网研究的技术人员和研究人员，尤其适用于有一定Simulink使用经验和MATLAB编程基础的人群。使用场景及目标：①理解和掌握光储直流微电网的工作原理；②学习如何使用Simulink搭建完整的光储并网系统仿真模型；③优化MPPT控制算法和功率分配策略，提高系统的稳定性和效率。其他说明：文章强调了参数整定的重要性，并分享了许多实用的经验和技术细节，对于希望深入研究光储直流微电网仿真的读者非常有价值。

stm32 PWM学习专题: stm32 PWM学习专题附代码

2898702486frft2d.m: 2898702486frft2d.m

基于单片机的八路温度循检汇编设计(51+SEG1x5+18B20x8+74h595x4)#0073: 包括：源程序工程文件、Proteus仿真工程文件、配套技术手册等 1、采用51/52单片机作为主控芯片； 2、采用汇编语言编程； 3、采用8个DS18B20传感器检测8路温度； 4、采用数码管循环显示通道号及温度值； 5、采用74HC595驱动显示；

MATLAB图像处理GUI应用：基于Matlab的图像处理程序设计与实现: 内容概要：本文详细介绍了如何使用MATLAB GUI构建一个功能丰富的图像处理工具箱。该工具箱涵盖了图像的基本操作如灰度化、边缘检测、直方图均衡化等功能，并提供了实时对比和多种算法选择。文中不仅展示了具体的代码实现，还深入探讨了每种算法背后的原理和技术细节。例如，灰度化采用NTSC标准权重进行RGB到灰度的转换，边缘检测使用Sobel和Canny算子，直方图均衡化则强调了在HSV空间处理V通道的重要性。此外，作者分享了许多实践经验，包括性能优化技巧、异常处理以及不同算法在特定场景下的表现。适合人群：具有一定MATLAB基础的开发者、图像处理领域的研究人员及爱好者。使用场景及目标：① 学习MATLAB GUI编程及其在图像处理中的应用；② 掌握常见的图像处理算法及其优化方法；③ 构建自己的图像处理工具箱，用于科研或工程项目。其他说明：文章配有详细的代码示例和理论解释，有助于读者更好地理解和掌握相关知识点。同时，文中提到的一些优化技巧和注意事项对于提高程序性能和稳定性非常有用。

基于Simulink的BLDC无刷直流电机转速电流双闭环控制系统仿真设计与优化: 内容概要：本文详细介绍了如何使用Simulink搭建BLDC无刷直流电机的转速电流双闭环控制系统。首先，文章解释了电流环和转速环的设计要点，包括PI控制器参数的选择、电流采样的频率设置以及PWM生成模块的配置。接着，作者分享了一些实用的仿真技巧，如使用简化版卡尔曼滤波代替传统测速发电机、加入PWM载波频率的随机抖动以减少谐振噪声、以及针对常见错误的解决方案。此外，文中还提供了具体的MATLAB代码片段，帮助读者更好地理解和实现各个模块的功能。最后，文章强调了仿真过程中需要注意的关键点，如参数整定、故障注入模块的应用和仿真加速方法。适合人群：从事电机控制研究的技术人员、电气工程专业的学生以及对BLDC电机仿真感兴趣的工程师。使用场景及目标：适用于需要进行BLDC电机控制算法开发和测试的研究项目，旨在提高仿真效率并确保最终控制效果的稳定性。通过学习本文，读者能够掌握双闭环控制系统的搭建方法及其优化技巧。其他说明：文中提供的代码和技巧均经过实际验证，具有较高的实用性。建议读者在实践中结合自身需求进行适当调整。

微电网并离网下垂控制Simulink模型在MATLAB2018中的实现与优化: 内容概要：本文详细介绍了微电网并离网下垂控制Simulink模型的设计与实现，特别针对MATLAB 2018版本。模型涵盖分布式电源、负荷、储能装置及控制模块，通过下垂控制实现微电网在并网和离网模式间的平稳切换与稳定运行。文中提供了详细的代码示例，解释了下垂控制的关键参数设定及其对系统稳定性的影响。此外，还讨论了并离网切换逻辑、锁相环设计、滤波器参数选择等问题，并给出了仿真技巧和性能评估方法。适合人群：从事电力系统研究、微电网控制技术研发的专业人士和技术爱好者。使用场景及目标：①研究微电网并离网控制策略；②验证下垂控制算法的有效性；③优化微电网系统的动态响应和稳定性；④测试不同工况下的系统性能。其他说明：该模型在MATLAB 2018中表现出色，能够作为可靠的研究工具，帮助研究人员深入了解并离网下垂控制的原理与应用。

FPGA周期信号处理：两种Verilog实现方案及其应用分析: 内容概要：本文详细介绍了FPGA处理周期信号的两种主要方法：状态机和计数器。首先，通过对两个具体版本的Verilog代码进行解析，展示了不同的处理逻辑和技术细节。版本一采用简单的移位操作，适用于信号放大的场景；版本二引入计数器，能够实现周期信号的累加，适用于统计数据的应用。接着，文章深入探讨了状态机和计数器两种实现方式的特点与优劣。状态机版本虽然调试友好，但在高频信号处理时可能存在时序问题；计数器版本资源占用少，适合高频或占空比不固定的场景。此外，还提供了具体的性能实测对比，如资源占用、最大频率和抗干扰能力等方面的数据。最后，给出了实际项目的选型建议，强调了根据具体需求选择合适的实现方案的重要性。适合人群：具有一定FPGA开发经验的研发人员，尤其是从事数字电路设计、嵌入式系统开发的技术人员。使用场景及目标：①帮助开发者理解FPGA处理周期信号的基本原理；②提供两种常见实现方案的具体代码示例及解析；③指导开发者根据实际项目需求选择最合适的实现方式。其他说明：文中不仅提供了理论分析，还结合了实际案例，分享了作者在调试过程中遇到的问题及解决方案，有助于读者更好地理解和应用相关技术。

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论