利用solr构建企业搜索平台（八）

robin88129

浏览: 252961 次
性别:
来自: Shanghai

最近访客更多访客>>

wolfwood

kismilan

495127903

weiruan85

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

Solr

Solr 企业应用 Apache Java XML

　　引用Bory.Chanhttp://blog.chenlb.com/2009/04/a ... plicate-result.html

　　打上SOLR-236_collapsing.patch补丁，实现 solr 搜索结果折叠、除去重复的搜索结果，可以实现类似google搜索结果的“站内的其它相关信息 ”。solr collapsing patch 是用 hash 某个字段来实现折叠重复结果的。下面我演示下应用这个补丁并搜索试用下。

　　其实 solr 上已经有了这功能的实现：solr 1.3 collapse patch，请看：https://issues.apache.org/jira/browse/SOLR-236，我这里下载是了新的：https://issues.apache.org/jira/s ... 36_collapsing.patch。

　　下载好后就需要打上补丁了，先准备一份源码在D:/apache-solr-1.3.0目录下。没有可以去下载：http: //archive.apache.org/dist/lucene/solr/1.3.0/apache-solr-1.3.0.zip。把SOLR- 236_collapsing.patch文件放在D:/apache-solr-1.3.0目录下，打补丁有我知道的有两种：用linux工具 patch（windows 下有 cygwin）；用 ant 的 patch。

　　windows cygwin 的 patch：

　　Html代码

D:\apache-solr-1.3.0>patch　-p0　<　SOLR-236_collapsing.patch　
patching　file　src/test/org/apache/solr/search/TestDocSet.java　
patching　file　src/java/org/apache/solr/search/CollapseFilter.java　
patching　file　src/java/org/apache/solr/search/DocSet.java　
patching　file　src/java/org/apache/solr/search/NegatedDocSet.java　
patching　file　src/java/org/apache/solr/search/SolrIndexSearcher.java　
patching　file　src/java/org/apache/solr/common/params/CollapseParams.java　
patching　file　src/java/org/apache/solr/handler/component/CollapseComponent.java

　　ant patch，把下面的内容保存为 patch-build.xml 放到 D:\apache-solr-1.3.0 目录下：

　　Xml代码

<?xml　version="1.0"　encoding="UTF-8"?>　　
<project　name="solr-patch"　default="apply-patch"　basedir=".">　　　
　　
　　<target　name="apply-patch"　description="Apply　a　patch　file.　Set　-Dpatch.file">　　
　　　　<patch　patchfile="${patch.file}"　strip="0"/>　　
　　</target>　　
</project>　

　　ant 打补丁：

　　Html代码 D:\apache-solr-1.3.0>ant　-Dpatch.file=SOLR-236_collapsing.patch　-f　patch-build.xml　
Buildfile:　patch-build.xml　
　
apply-patch:　
[patch]　patching　file　src/test/org/apache/solr/search/TestDocSet.java　
[patch]　patching　file　src/java/org/apache/solr/search/CollapseFilter.java　
[patch]　patching　file　src/java/org/apache/solr/search/DocSet.java　
[patch]　patching　file　src/java/org/apache/solr/search/NegatedDocSet.java　
[patch]　patching　file　src/java/org/apache/solr/search/SolrIndexSearcher.java　
[patch]　patching　file　src/java/org/apache/solr/common/params/CollapseParams.java　
[patch]　patching　file　src/java/org/apache/solr/handler/component/CollapseComponent.java　
　
BUILD　SUCCESSFUL　
Total　time:　0　seconds　

源码打上了补丁，然后用 ant 构建源码：

　　D:\apache-solr-1.3.0>ant dist

　　在 D:/apache-solr-1.3.0/dist 目录下可以找到编译好的 solr 了。然后把 solr 放到 tomcat 中去运行它，把下面的内容保存在 TOMCAT_HOME/conf/Catalina/localhost/solr.xml 文件中：

　　Xml代码

<Context　docBase="D:\apache-solr-1.3.0\dist\apache-solr-1.3.0.war"　reloadable="true"　>　　
　　<Environment　name="solr/home"　type="java.lang.String"　value="D:\apache-solr-1.3.0\example\solr"　override="true"　/>　　
</Context>　

　　修改 D:\apache-solr-1.3.0\example\solr\conf\solrconfig.xml 使 solr 可以支持 collapse。

　　定义搜索组件，在 QueryComponent 附近：

　　<searchComponent name="collapse" class="org.apache.solr.handler.component.CollapseComponent" />　

　　定义一个 handler 使用上面的搜索组件：

　　Xml代码

<requestHandler　name="collapse"　class="solr.SearchHandler">　　
　　　
　　<lst　name="defaults">　　
　　　<str　name="echoParams">explicit</str>　　
　　</lst>　　
　<arr　name="components">　　
　　<str>collapse</str>　　
　　<str>debug</str>　　
　</arr>　　
</requestHandler>

　　安装启动 tomcat，现在提交一些数据给它，用官方的示例数据就可以了。运行：

　　Html代码 D:\apache-solr-1.3.0\example\exampledocs>java　-Durl=http://localhost:8080/solr/update　-Dcommit=yes　-jar　post.jar　*.xml　
SimplePostTool:　version　1.2　
SimplePostTool:　WARNING:　Make　sure　your　XML　documents　are　encoded　in　UTF-8,　other　encodings　are　not　currently　supported　
SimplePostTool:　POSTing　files　to　http://localhost:8080/solr/update..　
SimplePostTool:　POSTing　file　hd.xml　
SimplePostTool:　POSTing　file　ipod_other.xml　
SimplePostTool:　POSTing　file　ipod_video.xml　
SimplePostTool:　POSTing　file　mem.xml　
SimplePostTool:　POSTing　file　monitor.xml　
SimplePostTool:　POSTing　file　monitor2.xml　
SimplePostTool:　POSTing　file　mp500.xml　
SimplePostTool:　POSTing　file　sd500.xml　
SimplePostTool:　POSTing　file　solr.xml　
SimplePostTool:　POSTing　file　spellchecker.xml　
SimplePostTool:　POSTing　file　utf8-example.xml　
SimplePostTool:　POSTing　file　vidcard.xml　
SimplePostTool:　COMMITting　Solr　index　changes..

　　http://localhost:8080/solr/admin/stats.jsp 有结果了？有了。然后开始查询试试看。

　　查询：http://localhost:8080/solr/select/?q=*%3A*&indent=on& qt=collapse&collapse=true&collapse.field=popularity&collapse.threshold=1

　　结果：

　　Xml代码　　

<?xml　version="1.0"　encoding="UTF-8"?>　　
<response>　　
　　
<lst　name="responseHeader">　　
　<int　name="status">0</int>　　
　<int　name="QTime">0</int>　　
　<lst　name="params">　　
　<str　name="collapse.field">popularity</str>　　
　<str　name="fl">id</str>　　
　<str　name="collapse.threshold">1</str>　　
　<str　name="indent">on</str>　　
　<str　name="q">*:*</str>　　
　<str　name="qt">collapse</str>　　
　<str　name="collapse">true</str>　　
　</lst>　　
</lst>　　
<lst　name="collapse_counts">　　
　<str　name="field">popularity</str>　　
　<lst　name="doc">　　
　<int　name="SP2514N">4</int>　　
　<int　name="F8V7067-APL-KIT">1</int>　　
　<int　name="MA147LL/A">1</int>　　
　<int　name="TWINX2048-3200PRO">1</int>　　
　<int　name="VS1GB400C3">3</int>　　
　<int　name="1">10</int>　　
　</lst>　　
　<lst　name="count">　　
　<int　name="6">4</int>　　
　<int　name="1">1</int>　　
　<int　name="10">1</int>　　
　<int　name="5">1</int>　　
　<int　name="7">3</int>　　
　<int　name="0">10</int>　　
　</lst>　　
　<str　name="debug">HashDocSet(6)　Time(ms):　0/0/0/0</str>　　
</lst>　　
<result　name="response"　numFound="6"　start="0">　　
　<doc>　　
　<str　name="id">SP2514N</str>　　
　</doc>　　
　<doc>　　
　<str　name="id">F8V7067-APL-KIT</str>　　
　</doc>　　
　<doc>　　
　<str　name="id">MA147LL/A</str>　　
　</doc>　　
　<doc>　　
　<str　name="id">TWINX2048-3200PRO</str>　　
　</doc>　　
　<doc>　　
　<str　name="id">VS1GB400C3</str>　　
　</doc>　　
　<doc>　　
　<str　name="id">1</str>　　
　</doc>　　
</result>　　
</response>　　
可以看到　collapse_counts　相关的输出：　
　
<lst　name="collapse_counts">　　
　<str　name="field">popularity</str>　　
　<lst　name="doc">　　
　<int　name="SP2514N">4</int>　　
...　　
　</lst>　　
　<lst　name="count">　　
　<int　name="6">4</int>　　
　<int　name="1">1</int>　　
　<int　name="10">1</int>　　
　<int　name="5">1</int>　　
　<int　name="7">3</int>　　
　<int　name="0">10</int>　　
　</lst>　　
　<str　name="debug">HashDocSet(6)　Time(ms):　0/0/0/0</str>　　
</lst>　

　　上面的 count 下的内容（它的顺序是result/doc的顺序），表示 popularity=6 相同的结果还有 4 个，与 popularity=1 相同的结果还有 1 个，依此类推。这样就可以显示给用户的界面里提示“相同的其它内容不有N个”。

　　使用的参数有：

　　#启用 collapse 组件　

　　collapse=true　

　　#用那个字段来 hash 去除重量内容　

　　collapse.field=popularity　

　　#要结果中可以最多出现几个相同的文档　

　　collapse.threshold=1　

　　当然还有其它参数，请看：org.apache.solr.common.params.CollapseParams 类。

分享到：

利用solr构建企业搜索平台（九） | 利用solr构建企业搜索平台（七）

2010-07-06 15:45
浏览 1339
评论(0)
分类:编程语言
查看更多

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

独子棋demo.rar: 独子棋demo.rar

云安全联盟软件定义边界SDP标准规范2.0202239页.pdf: 云安全联盟软件定义边界SDP标准规范2.0202239页.pdf

Uniapp开发的微商个人相册多端小程序源码: Uniapp开发的微商个人相册多端小程序源码。使用 HBuilder X 导入本地项目，修改小程序AppID，以及Uni-app应用标识，调试发布即可。小程序源码特点： 1、首页进行相册展示，采用分页 2、列表页面以文字形式进行分类，管理员可进行添加，修改和排序 3、每个列表下有多个相册，管理员可进行添加，修改和排序 4、每个相册有多张图片，有小图和大图模式进行切换 5、相册中可以长按图片进行选择删除和设为封面 6、相册可以进行分享 7、我的页面有管理员登录，联系客服等功能

【FPGA硬件设计】基于FPGA的144通道可切换电压源系统设计：硬件架构与上位机软件实现(论文复现或解答，含详细代码及解释）: 内容概要：本文详细介绍了基于FPGA的144输出通道可切换电压源系统的设计与实现，涵盖系统总体架构、FPGA硬件设计、上位机软件设计以及系统集成方案。系统由上位机控制软件（PC端）、FPGA控制核心和高压输出模块（144通道）三部分组成。FPGA硬件设计部分详细描述了Verilog代码实现，包括PWM生成模块、UART通信模块和温度监控模块。硬件设计说明中提及了FPGA选型、PWM生成方式、通信接口、高压输出模块和保护电路的设计要点。上位机软件采用Python编写，实现了设备连接、命令发送、序列控制等功能，并提供了一个图形用户界面（GUI）用于方便的操作和配置。适合人群：具备一定硬件设计和编程基础的电子工程师、FPGA开发者及科研人员。使用场景及目标：①适用于需要精确控制多通道电压输出的实验环境或工业应用场景；②帮助用户理解和掌握FPGA在复杂控制系统中的应用，包括PWM控制、UART通信及多通道信号处理；③为研究人员提供一个可扩展的平台，用于测试和验证不同的电压源控制算法和策略。阅读建议：由于涉及硬件和软件两方面的内容，建议读者先熟悉FPGA基础知识和Verilog语言，同时具备一定的Python编程经验。在阅读过程中，应结合硬件电路图和代码注释，逐步理解系统的各个组成部分及其相互关系。此外，实际动手搭建和调试该系统将有助于加深对整个设计的理解。

上市公司-人工智能-词频总和明细.xlsx: 地级市政府通过制定相关政策来推动数字经济的发展和数字政府的建设。这些政策可能包括鼓励企业数字化转型、促进数字技术创新、加强数字基础设施建设、优化数字政务服务等方面的内容。政策制定的频率和力度，可以在一定程度上反映政府对数字领域的关注度。在地级市政府数字关注度的背景下，词频分析成为了一种有效的工具，用以衡量政府文件和宣传资料中涉及数字技术和数字化转型相关词汇的频次，进而揭示政府对这一领域的关注程度和重视方向。数据名称：地级市-政府数字关注度、词频

Android平台上基于多尺度多角度模板匹配的图像识别技术及其在不同ARM架构的应用: 内容概要：本文详细探讨了在Android平台上进行图像模板匹配的技术挑战和解决方案，特别是在处理不同尺寸和旋转角度的目标物时的方法。文中介绍了使用OpenCV构建图像金字塔、处理旋转模板以及利用NEON指令集优化性能的具体实现。此外，文章还讨论了在armeabi-v7a和arm64-v8a这两种主要ARM架构下的优化技巧，如内存对齐、SIMD指令优化、RenderScript并行处理等。作者分享了许多实践经验，包括如何避免常见的性能瓶颈和兼容性问题。适合人群：有一定Android开发经验，尤其是熟悉OpenCV和NDK编程的中级及以上开发者。使用场景及目标：适用于需要在移动设备上进行高效图像识别的应用开发，如实时视频流中的物体检测、游戏内的道具识别等。目标是提高模板匹配的速度和准确性，同时确保在不同硬件配置下的稳定性和兼容性。其他说明：文章提供了丰富的代码片段和实际案例，帮助读者更好地理解和应用所介绍的技术。特别强调了在不同ARM架构下的优化策略，为开发者提供了宝贵的参考资料。

电力系统中基于改进粒子群算法的微电网多目标优化调度研究: 内容概要：本文探讨了一种改进的粒子群优化（PSO）算法在微电网多目标优化调度中的应用。传统PSO在解决此类复杂问题时常陷入局部最优解，而改进版通过引入动态惯性因子和自适应变异操作，显著提升了算法性能。文中详细介绍了这两种改进措施的具体实现方法及其对算法收敛性和解质量的影响。此外，还展示了该算法在实际微电网调度任务中的表现，特别是在权衡经济成本与环境效益方面的能力。适合人群：从事电力系统优化、智能电网研究的专业人士以及对进化算法感兴趣的学者和技术人员。使用场景及目标：适用于需要进行高效能源管理的场合，如分布式发电系统的规划与运行。主要目的是寻找既能降低成本又能减少环境污染的最佳调度方案。其他说明：文中提供了大量伪代码片段帮助读者理解具体的技术细节，并强调了参数调节对于最终结果的重要性。同时指出，该方法不仅限于微电网领域，还可以扩展应用于其他类型的优化问题。

Delphi 12.3控件之TeeChart Offline Keygen.7z: Delphi 12.3控件之TeeChart Offline Keygen.7z

MATLAB在光学领域屈光度计算中的数据处理与应用: 内容概要：本文详细介绍了如何利用MATLAB进行屈光度计算及其数据处理方法。首先解释了屈光度的基本概念和计算公式，接着展示了如何通过MATLAB代码读取、清理和转换焦距数据为屈光度，并进行了必要的单位转换。针对可能出现的异常值和噪声，文中提供了有效的数据清洗手段。此外，还探讨了如何对屈光度数据进行统计分析以及可视化呈现，如绘制趋势图和散点图等。最后，提到了将MATLAB代码转化为C++代码以便集成到硬件系统的高级应用。适合人群：从事光学研究、眼科医疗设备开发的技术人员，以及对MATLAB有兴趣的学习者。使用场景及目标：适用于需要精确处理和分析光学数据的研究机构或企业，旨在提高屈光度计算的效率和准确性，确保数据质量的同时优化实验结果。其他说明：文中不仅涵盖了基本的操作步骤，还包括了许多实用的小贴士和技术细节，有助于读者更好地理解和掌握相关内容。同时强调了单位一致性的重要性，提醒开发者注意潜在的问题。

349421c2-4955-4132-b4da-808a3a171bfe.pdf: 349421c2-4955-4132-b4da-808a3a171bfe.pdf

1744300906657718_download.jsp: 1744300906657718_download.jsp

【简历全景认知5】简历通关指南：揭秘企业筛选简历的三重门系统: 【内容概要】本文详细解析了企业筛选简历的“三重门”系统，包括ATS系统初筛、HR复核和业务部门终极评估三个阶段。首先，ATS系统作为关键词匹配引擎，强调了关键词的重要性及其优化方法；其次，HR在6秒内通过“薄片判断”评估简历的职业连贯性、成就量化和岗位匹配度；最后，业务部门则侧重于技术能力和文化适配性的综合评估。文章还揭示了各环节中的心理学原理和认知偏差，并提供了针对性的优化建议。【适合人群】正在求职或有求职打算的职场人士，尤其是希望提升简历通过率的求职者。【使用场景及目标】 ①帮助求职者理解企业筛选简历的具体流程； ②提供简历优化的具体方法，如关键词优化、成就量化、案例准备等； ③指导求职者如何根据不同阶段的评审特点调整简历内容。【其他说明】文章结合了最新的招聘趋势研究报告和心理学理论，强调简历不仅是通过筛选的工具，更是展示个人能力和价值的平台。求职者应充分利用这些心理规律，打造更具吸引力的简历，为后续面试做好铺垫。

PFC2D5.0二维岩石单轴压缩模拟：颗粒流代码解析与能量裂隙分析: 内容概要：本文详细介绍了使用PFC2D5.0进行二维岩石单轴压缩模拟的具体方法和代码实现。首先，通过设定模型的基本参数如颗粒生成、粘结设置、加载控制等，构建了一个完整的岩石样品模型。接着，深入探讨了加载过程中应力应变曲线的变化规律以及能量分析的方法，包括弹性应变能、动能和耗散能的监测。此外，还提供了裂隙统计的技术手段，能够精确捕捉岩石内部裂隙的发展情况。最后，强调了参数调整对模拟效果的影响，并给出了优化建议。适合人群：从事岩土工程、地质力学研究的专业人士和技术爱好者。使用场景及目标：适用于需要深入了解岩石力学特性的研究人员，帮助他们掌握PFC2D软件的应用技巧，提升科研能力。同时，也为相关领域的学生提供了一套实用的学习资料。其他说明：文中提供的代码可以直接应用于PFC2D5.0环境，便于用户快速上手并进行实验验证。通过对不同参数的调整，可以模拟多种类型的岩石破坏行为，为实际工程项目提供理论支持。

Fluent激光焊接数值模拟：基于UDF的锥形高斯热源建模与优化: 内容概要：本文详细介绍了如何使用Fluent进行激光焊接的数值模拟，重点讲解了锥形高斯热源的建模方法。文章首先解释了锥形高斯热源的特点及其与普通高斯热源的区别，然后给出了具体的UDF代码实现，包括热源强度的计算、热流衰减的控制以及热源移动的实现。此外，还讨论了网格划分、材料参数设置、常见错误排查和优化技巧等方面的内容。通过实例和操作视频，帮助读者快速掌握激光焊接数值模拟的方法和技术要点。适合人群：具有一定CFD基础并希望深入学习激光焊接数值模拟的研究人员和工程师。使用场景及目标：适用于需要精确模拟激光焊接过程的研究项目或工业应用，旨在提高模拟精度，减少试验成本，优化焊接工艺参数。其他说明：文中提供了大量实用的操作技巧和注意事项，如网格划分建议、材料参数选择、UDF代码调试等，有助于解决实际操作中可能遇到的问题。同时，附带的操作视频和GitHub上的完整案例包也为初学者提供了宝贵的学习资源。

序列化.md: 序列化.md

ResumePlatformFront 笔试面试全攻略与资源宝典: "ResumePlatformFront 笔试面试全攻略与资源宝典"——一站式前端求职解决方案！精选高频笔试真题解析、大厂面试经验分享、实战项目模板及技能进阶指南，助你系统攻克前端求职难关。从简历优化到Offer谈判，覆盖求职全流程，配套免费资源库持续更新。无论应届生还是进阶开发者，这里都是你斩获心仪Offer的强力后盾！

weixin205微信小程序线上教育商城ssm(文档+源码)_kaic: weixin205微信小程序线上教育商城ssm(文档+源码)_kaic

岩土工程中COMSOL实现岩石损伤热水力耦合模型及其应用: 内容概要：本文详细介绍了如何利用COMSOL软件构建岩石损伤与温度、渗流耦合的多物理场模型。首先解释了温度变化引起岩石膨胀/收缩以及渗流压力改变裂纹发展的物理机制，并通过PDE方程组进行描述。接着展示了具体的实现方法，如定义损伤变量、设置导热系数和渗透率随损伤变化的关系，以及引入温度修正的Mohr-Coulomb准则。文中还讨论了求解器配置技巧，强调了非线性收敛问题的解决方案。此外，作者分享了一些实际建模过程中遇到的问题及解决经验，如参数选择不当导致的模型发散等。适合人群：从事岩土工程、地质工程及相关领域的研究人员和技术人员，特别是对多物理场耦合仿真感兴趣的学者。使用场景及目标：适用于需要深入理解岩石在温度、渗流和应力共同作用下的损伤演化规律的研究项目。目标是帮助读者掌握COMSOL中多物理场耦合模型的建立方法，提高数值模拟的准确性。其他说明：文章不仅提供了理论背景，还包括大量实用的代码片段和调试建议，有助于读者更好地理解和应用所学知识。

2023-04-06-项目笔记 - 第四百六十四阶段 - 4.4.2.462全局变量的作用域-462 -2025.04-10: 2023-04-06-项目笔记-第四百六十四阶段-课前小分享_小分享1.坚持提交gitee 小分享2.作业中提交代码小分享3.写代码注意代码风格 4.3.1变量的使用 4.4变量的作用域与生命周期 4.4.1局部变量的作用域 4.4.2全局变量的作用域 4.4.2.1全局变量的作用域_1 4.4.2.462局变量的作用域_462- 2025-04-10

电机控制领域中基于滑膜观测器的PMSM无传感器FOC控制Simulink仿真: 内容概要：本文详细介绍了基于滑膜观测器的永磁同步电机（PMSM）无传感器控制技术及其在MATLAB/Simulink中的仿真实现。首先阐述了PMSM的特点及其在现代工业中的重要地位，接着重点讲解了转子磁场定向矢量控制（FOC）的工作原理，特别是电流环的设计和电压解耦的作用。然后深入探讨了一阶滑膜观测器的实现方法，展示了如何通过电机的电压和电流信号估计转子位置和速度。最后，通过搭建完整的Simulink仿真模型并运行仿真，评估了控制策略的性能，并提供了配套的英文文献以供进一步研究。适合人群：从事电机控制系统设计的研发工程师和技术爱好者，尤其是对无传感器控制技术和滑膜观测器感兴趣的读者。使用场景及目标：适用于希望深入了解PMSM无传感器控制技术的工程师，旨在帮助他们掌握滑膜观测器的设计和实现，提高系统的可靠性和降低成本。同时，也为后续的实际应用和优化提供了理论依据和技术支持。其他说明：文中提供的代码片段和仿真模型有助于读者更好地理解和实践相关技术，而配套的英文文献则为深入研究提供了宝贵的参考资料。

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论