lucene 排序 (Sort SortField 构造函数）

rabbit9898

浏览: 152028 次
性别:
来自: 北京

最近访客更多访客>>

adnapllits

i4u

fanci

AILIKES

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

lucene

lucene

注意：
在lucene2.9中，排序的字段域必须indexed但是不能tokenized。因为虽然tokenized后虽然可以排序，但是有可能不是你想要的结果，因为tokenized可能会去除停用词或者大小写转换等。
(in Lucene 2.9 and when reading java doc for the Sort class I noticed
it says "The field must be indexed, but should not be tokenized".
Sorting on tokenized fields can work, but may not necessarily do what
you expect, depending on your requirements and how the field is
tokenized. )

Lucene的默认排序是按照Document的得分进行排序的。当检索结果集中的两个Document的具有相同的得分时，默认按照Document的ID对结果进行排序。

下面研究几种设置/改变检索结果排序的方法。

1、改变Document的boost(激励因子)
改变boost的大小，会导致Document的得分的改变，从而按照Lucene默认的对检索结果集的排序方式，改变检索结果中Document的排序的提前或者靠后。在计算得分的时候，使用到了boost的值，默认boost的值为1.0，也就说默认情况下Document的得分与boost的无关的。一旦改变了默认的boost的值，也就从Document的得分与boost无关，变为相关了：boost值越大，Document的得分越高。

2、改变Field的boost(激励因子)
改变Field的boost值，和改变Document的boost值是一样的。因为Document的boost是通过添加到Docuemnt中Field体现的，所以改变Field的boost值，可以改变Document的boost值。

3、使用Sort排序工具实现排序
Lucene在查询的时候，可以通过以一个Sort作为参数构造一个检索器IndexSearcher，在构造Sort的时候，指定排序规则。
调用sort进行排序的方法是IndexSearcher.search，例如：
IndexSearcher.search(query,sort);

关于Sort类，在其内部定义了6种构造方法：
    public Sort() //
    public Sort(SortField field) //通过构造某个域（field）的SortField对象根据一个域进行排序
    public Sort(SortField[] fields) //通过构造一组域（field）的SortField对象组实现根据多个域排序
    public Sort(String field) //根据某个域（field）的名称构造Sort进行排序
    public Sort(String field, boolean reverse) //根据某个域（field）的名称构造SortField进行排序，reverse为true为升序
    public Sort(String[] fields) //根据一组域（field）的名称构造一组Sort进行排序

4、直接使用SortField实现排序

   关于SortField类，在其内部定义了7种构造方法：
public SortField (String field, boolean reverse)//根据某个域（field）的名称构造SortField, reverse为false为升序
public SortField (String field, int type)
public SortField (String field, int type, boolean reverse)
public SortField (String field, Locale locale)
public SortField (String field, Locale locale, boolean reverse)
public SortField (String field, SortComparatorSource comparator)
public SortField (String field, SortComparatorSource comparator, boolean reverse)

type对应的值分别为：
SortField. SCORE 按积分排序
SortField. DOC 按文档排序
SortField. AUTO 域的值为int、long、float都有效
SortField.STRING 域按STRING排序
SortField..FLOAT
SortField.LONG
SortField.DOUBLE
SortField.SHORT
SortField.CUSTOM 通过比较器排序
SortField.BYTE


5、自定义排序
Lucene中的自定义排序功能和Java集合中的自定义排序的实现方法差不多,都要实现一下比较接口. 在Java中只要实现Comparable接口就可以了.但是在Lucene中要实现SortComparatorSource接口和ScoreDocComparator接口.在了解具体实现方法之前先来看看这两个接口的定义吧

分享到：

Bobo-Browse 如何修改评分机制 | lucene 2010 大会资料 Lucene Revolution 2 ...

2010-11-09 13:58
浏览 4145
评论(0)
分类:编程语言
查看更多

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

Lucene5学习之自定义排序: 这里的`SortField`实例按照它们在`Sort`构造函数中的顺序决定优先级。此外，Lucene5引入了`FieldComparatorSource`和`FieldDoc`接口，允许开发者自定义比较器和文档的排序行为。这些高级特性可以用来实现更复杂的...

获取全部Luence数据: 这里需要注意的是，`IndexSearcher` 的构造函数中传入了 `FSDirectory.Open` 方法，该方法用于打开指定目录下的索引文件。同时，通过 `searcher.MaxDoc()` 可以获取索引中所有文档的数量（包括被删除但未实际物理...

毕业设计选题 -未来生鲜运输车设计.pptx: 毕业设计选题 -未来生鲜运输车设计.pptx

基于樽海鞘算法优化的极限学习机回归预测及其与BP、GRNN、ELM的性能对比研究: 内容概要：本文详细探讨了基于樽海鞘算法（SSA）优化的极限学习机（ELM）在回归预测任务中的应用，并与传统的BP神经网络、广义回归神经网络（GRNN）以及未优化的ELM进行了性能对比。首先介绍了ELM的基本原理，即通过随机生成输入层与隐藏层之间的连接权重及阈值，仅需计算输出权重即可快速完成训练。接着阐述了SSA的工作机制，利用樽海鞘群体觅食行为优化ELM的输入权重和隐藏层阈值，从而提高模型性能。随后分别给出了BP、GRNN、ELM和SSA-ELM的具体实现代码，并通过波士顿房价数据集和其他工业数据集验证了各模型的表现。结果显示，SSA-ELM在预测精度方面显著优于其他三种方法，尽管其训练时间较长，但在实际应用中仍具有明显优势。适合人群：对机器学习尤其是回归预测感兴趣的科研人员和技术开发者，特别是那些希望深入了解ELM及其优化方法的人。使用场景及目标：适用于需要高效、高精度回归预测的应用场景，如金融建模、工业数据分析等。主要目标是提供一种更为有效的回归预测解决方案，尤其是在处理大规模数据集时能够保持较高的预测精度。其他说明：文中提供了详细的代码示例和性能对比图表，帮助读者更好地理解和复现实验结果。同时提醒使用者注意SSA参数的选择对模型性能的影响，建议进行参数敏感性分析以获得最佳效果。

2025年中国生成式AI大会PPT（4-1）: 2025年中国生成式AI大会PPT（4-1）

无刷直流电机双闭环调速系统的Simulink建模与参数优化: 内容概要：本文详细介绍了基于Simulink平台构建无刷直流电机（BLDC）双闭环调速系统的全过程。首先阐述了双闭环控制系统的基本架构，即外层速度环和内层电流环的工作原理及其相互关系。接着深入探讨了PWM生成模块的设计，特别是占空比计算方法的选择以及三角波频率的设定。文中还提供了详细的电机参数设置指导，如转动惯量、电感、电阻等，并强调了参数选择对系统性能的影响。此外，针对PI控制器的参数整定给出了具体的公式和经验值，同时分享了一些实用的调试技巧，如避免转速超调、处理启动抖动等问题的方法。最后，通过仿真实验展示了系统的稳定性和鲁棒性，验证了所提出方法的有效性。适用人群：从事电机控制研究的技术人员、自动化工程领域的研究生及科研工作者。使用场景及目标：适用于需要深入了解和掌握无刷直流电机双闭环调速系统设计与优化的人群。主要目标是帮助读者学会利用Simulink进行BLDC电机控制系统的建模、仿真和参数优化，从而提高系统的稳定性和响应速度。其他说明：文章不仅提供了理论知识，还包括了许多实践经验和技术细节，有助于读者更好地理解和应用相关技术。

西门子S7-1200 PLC与施耐德变频器Modbus通讯实现及调试技巧: 内容概要：本文详细介绍了西门子S7-1200 PLC与施耐德ATV310/312变频器通过Modbus RTU进行通讯的具体实现步骤和调试技巧。主要内容涵盖硬件接线、通讯参数配置、控制启停、设定频率、读取运行参数的方法以及常见的调试问题及其解决方案。文中提供了具体的代码示例，帮助读者理解和实施通讯程序。此外，还强调了注意事项，如地址偏移量、数据格式转换和超时匹配等。适合人群：从事工业自动化领域的工程师和技术人员，尤其是那些需要将西门子PLC与施耐德变频器进行集成的工作人员。使用场景及目标：适用于需要通过Modbus RTU协议实现PLC与变频器通讯的工程项目。目标是确保通讯稳定可靠，掌握解决常见问题的方法，提高调试效率。其他说明：文中提到的实际案例和调试经验有助于读者避免常见错误，快速定位并解决问题。建议读者在实践中结合提供的代码示例和调试工具进行操作。

基于FPGA的Verilog实现IIC主从机驱动及其应用: 内容概要：本文详细介绍了如何使用Verilog在FPGA上实现IIC（Inter-Integrated Circuit）主从机驱动。主要内容包括从机和主机的设计，特别是状态机的实现、寄存器读取、时钟分频策略、SDA线的三态控制等关键技术。文中还提供了详细的代码片段，展示了从机地址匹配逻辑、主机时钟生成逻辑、顶层模块的连接方法以及仿真实验的具体步骤。此外，文章讨论了一些常见的调试问题，如总线竞争、时序不匹配等，并给出了相应的解决方案。适合人群：具备一定FPGA开发基础的技术人员，尤其是对IIC协议感兴趣的嵌入式系统开发者。使用场景及目标：适用于需要在FPGA平台上实现高效、可靠的IIC通信的应用场景。主要目标是帮助读者掌握IIC协议的工作原理，能够独立完成IIC主从机系统的开发和调试。其他说明：文章不仅提供了理论讲解，还包括了大量的实战经验和代码实例，有助于读者更好地理解和应用所学知识。同时，文章还提供了一个思考题，引导读者进一步探索多主设备仲裁机制的设计思路。

C#开发的拖拽式Halcon可视化抓边抓圆控件，提升机器视觉测量效率: 内容概要：本文介绍了一款基于C#开发的拖拽式Halcon可视化抓边、抓圆控件，旨在简化机器视觉项目中的测量任务。该控件通过拖拽操作即可快速生成测量区域，自动完成边缘坐标提取，并提供实时反馈。文中详细描述了控件的工作原理和技术细节，如坐标系转换、卡尺生成、边缘检测算法封装以及动态参数调试等功能。此外，还讨论了一些常见问题及其解决方案，如坐标系差异、内存管理等。适合人群：从事机器视觉开发的技术人员，尤其是熟悉C#和Halcon的开发者。使用场景及目标：适用于需要频繁进行边缘和圆形特征测量的工业自动化项目，能够显著提高测量效率并减少编码工作量。主要目标是将复杂的测量任务转化为简单的拖拽操作，使非专业人员也能轻松完成测量配置。其他说明：该控件已开源发布在GitHub上，提供了完整的源代码和详细的使用指南。未来计划扩展更多高级功能，如自动路径规划和亚像素级齿轮齿距检测等。

西门子200Smart与维纶触摸屏在疫苗车间控制系统的应用：配液、发酵、纯化及CIP清洗工艺详解: 内容概要：本文详细介绍了西门子200Smart PLC与维纶触摸屏在某疫苗车间控制系统的具体应用，涵盖配液、发酵、纯化及CIP清洗四个主要工艺环节。文中不仅展示了具体的编程代码和技术细节，还分享了许多实战经验和调试技巧。例如，在配液罐中，通过模拟量处理确保温度和液位的精确控制；发酵罐部分，着重讨论了PID参数整定和USS通讯控制变频器的方法；纯化过程中，强调了双PID串级控制的应用；CIP清洗环节，则涉及复杂的定时器逻辑和阀门联锁机制。此外，文章还提到了一些常见的陷阱及其解决方案，如通讯干扰、状态机切换等问题。适合人群：具有一定PLC编程基础的技术人员，尤其是从事工业自动化领域的工程师。使用场景及目标：适用于需要深入了解PLC与触摸屏集成控制系统的工程师，帮助他们在实际项目中更好地理解和应用相关技术和方法，提高系统的稳定性和可靠性。其他说明：文章提供了大量实战经验和代码片段，有助于读者快速掌握关键技术点，并避免常见错误。同时，文中提到的一些优化措施和调试技巧对提升系统性能非常有帮助。

计算机网络结课设计：通过思科Cisco进行中小型校园网搭建: 计算机网络课程的结课设计是使用思科模拟器搭建一个中小型校园网，当时花了几天时间查阅相关博客总算是做出来了，现在免费上传CSDN，希望小伙伴们能给博客一套三连支持

芋道（yudao）开发技术文档: 《芋道开发指南文档-2023-10-27更新》是针对软件开发者和IT专业人士的一份详尽的资源集合，旨在提供最新的开发实践、范例代码和最佳策略。这份2023年10月27日更新的文档集，包含了丰富的模板和素材，帮助开发者在日常工作中提高效率，保证项目的顺利进行。让我们深入探讨这份文档的可能内容。"芋道"可能是一个开源项目或一个专业的技术社区，其开发指南涵盖了多个方面，例如： 1. **编程语言指南**：可能包括Java、Python、JavaScript、C++等主流语言的编码规范、最佳实践以及常见问题的解决方案。 2. **框架与库的应用**：可能会讲解React、Vue、Angular等前端框架，以及Django、Spring Boot等后端框架的使用技巧和常见应用场景。 3. **数据库管理**：涵盖了SQL语言的基本操作，数据库设计原则，以及如何高效使用MySQL、PostgreSQL、MongoDB等数据库系统。 4. **版本控制**：详细介绍了Git的工作流程，分支管理策略，以及与其他开发工具（如Visual Studio Code、IntelliJ IDEA）的集成。 5. **持续集成与持续部署(CI/CD)**：包括Jenkins、Travis CI、GitHub Actions等工具的配置和使用，以实现自动化测试和部署。 6. **云服务与容器化**：可能涉及AWS、Azure、Google Cloud Platform等云计算平台的使用，以及Docker和Kubernetes的容器化部署实践。 7. **API设计与测试**：讲解RESTful API的设计原则，Swagger的使用，以及Postman等工具进行API测试的方法。 8. **安全性与隐私保护**：涵盖OAuth、JWT认证机制，HTTPS安全通信，以及防止SQL注入、

基于信息间隙决策的综合能源系统优化调度模型及其应用: 内容概要：本文介绍了一种先进的综合能源系统优化调度模型，该模型将风电、光伏、光热发电等新能源与燃气轮机、燃气锅炉等传统能源设备相结合，利用信息间隙决策（IGDT）处理不确定性。模型中引入了P2G（电转气）装置和碳捕集技术，实现了碳经济闭环。通过多能转换和储能系统的协同调度，提高了系统的灵活性和鲁棒性。文中详细介绍了模型的关键组件和技术实现，包括IGDT的鲁棒性参数设置、P2G与碳捕集的协同控制、储能系统的三维协同调度等。此外，模型展示了在极端天气和负荷波动下的优异表现，显著降低了碳排放成本并提高了能源利用效率。适合人群：从事能源系统优化、电力调度、碳交易等相关领域的研究人员和工程师。使用场景及目标：适用于需要处理多种能源形式和不确定性的综合能源系统调度场景。主要目标是提高系统的灵活性、鲁棒性和经济效益，减少碳排放。其他说明：模型具有良好的扩展性，可以通过修改配置文件轻松集成新的能源设备。代码中包含了详细的注释和公式推导，便于理解和进一步改进。

毕业设计的论文撰写、终期答辩相关的资源.m: 毕业设计的论文撰写、终期答辩相关的资源

机器学习（预测模型）：专注于 2024 年出现的漏洞（CVE）信息数据集: 该是一个在 Kaggle 上发布的数据集，专注于 2024 年出现的漏洞（CVE）信息。以下是关于该数据集的详细介绍：该数据集收集了 2024 年记录在案的各类漏洞信息，涵盖了漏洞的利用方式（Exploits）、通用漏洞评分系统（CVSS）评分以及受影响的操作系统（OS）。通过整合这些信息，研究人员和安全专家可以全面了解每个漏洞的潜在威胁、影响范围以及可能的攻击途径。数据主要来源于权威的漏洞信息平台，如美国国家漏洞数据库（NVD）等。这些数据经过整理和筛选后被纳入数据集，确保了信息的准确性和可靠性。数据集特点：全面性：涵盖了多种操作系统（如 Windows、Linux、Android 等）的漏洞信息，反映了不同平台的安全状况。实用性：CVSS 评分提供了漏洞严重程度的量化指标，帮助用户快速评估漏洞的优先级。同时，漏洞利用信息（Exploits）为安全研究人员提供了攻击者可能的攻击手段，有助于提前制定防御策略。时效性：专注于 2024 年的漏洞数据，反映了当前网络安全领域面临的新挑战和新趋势。该数据集可用于多种研究和实践场景：安全研究：研究人员可以利用该数据集分析漏洞的分布规律、攻击趋势以及不同操作系统之间的安全差异，为网络安全防护提供理论支持。机器学习与数据分析：数据集中的结构化信息适合用于机器学习模型的训练，例如预测漏洞的 CVSS 评分、识别潜在的高危漏洞等。企业安全评估：企业安全团队可以参考该数据集中的漏洞信息，结合自身系统的实际情况，进行安全评估和漏洞修复计划的制定。

建模大赛入门指南：从零基础到实战应用.pdf: 内容概要：本文档作为建模大赛的入门指南，详细介绍了建模大赛的概念、类型、竞赛流程、核心步骤与技巧，并提供实战案例解析。文档首先概述了建模大赛，指出其以数学、计算机技术为核心，主要分为数学建模、3D建模和AI大模型竞赛三类。接着深入解析了数学建模竞赛，涵盖组队策略（如三人分别负责建模、编程、论文写作）、时间安排（72小时内完成全流程）以及问题分析、模型建立、编程实现和论文撰写的要点。文中还提供了物流路径优化的实战案例，展示了如何将实际问题转化为图论问题并采用Dijkstra或蚁群算法求解。最后，文档推荐了不同类型建模的学习资源与工具，并给出了新手避坑建议，如避免过度复杂化模型、重视可视化呈现等。; 适合人群：对建模大赛感兴趣的初学者，特别是高校学生及希望参与数学建模竞赛的新手。; 使用场景及目标：①了解建模大赛的基本概念和分类；②掌握数学建模竞赛的具体流程与分工；③学习如何将实际问题转化为数学模型并求解；④获取实战经验和常见错误规避方法。; 其他说明：文档不仅提供了理论知识，还结合具体实例和代码片段帮助读者更好地理解和实践建模过程。建议新手从中小型赛事开始积累经验，逐步提升技能水平。

protobuf-6.30.1-cp310-abi3-win32.whl: 该资源为protobuf-6.30.1-cp310-abi3-win32.whl，欢迎下载使用哦！

大数据环境构建：从虚拟机创建到Ambari集群部署的技术指南: 内容概要：本文档详细介绍了基于Linux系统的大数据环境搭建流程，涵盖从虚拟机创建到集群建立的全过程。首先，通过一系列步骤创建并配置虚拟机，包括设置IP地址、安装MySQL数据库等操作。接着，重点讲解了Ambari的安装与配置，涉及关闭防火墙、设置免密登录、安装时间同步服务（ntp）、HTTP服务以及配置YUM源等关键环节。最后，完成了Ambari数据库的创建、JDK的安装、Ambari server和agent的部署，并指导用户创建集群。整个过程中还提供了针对可能出现的问题及其解决方案，确保各组件顺利安装与配置。适合人群：具有Linux基础操作技能的数据工程师或运维人员，尤其是那些需要构建和管理大数据平台的专业人士。使用场景及目标：适用于希望快速搭建稳定可靠的大数据平台的企业或个人开发者。通过本指南可以掌握如何利用Ambari工具自动化部署Hadoop生态系统中的各个组件，从而提高工作效率，降低维护成本。其他说明：文档中包含了大量具体的命令行指令和配置细节，建议读者按照顺序逐步操作，并注意记录下重要的参数值以便后续参考。此外，在遇到问题时可参照提供的解决方案进行排查，必要时查阅官方文档获取更多信息。

MATLAB中基于LMS算法的一维时间序列信号降噪技术及其实现: 内容概要：本文详细介绍了如何在MATLAB R2018A中使用最小均方(LMS)自适应滤波算法对一维时间序列信号进行降噪处理，特别是针对心电图(ECG)信号的应用。首先，通过生成模拟的ECG信号并加入随机噪声，创建了一个带有噪声的时间序列。然后，实现了LMS算法的核心部分，包括滤波器阶数、步长参数的选择以及权重更新规则的设计。文中还提供了详细的代码示例，展示了如何构建和训练自适应滤波器，并通过图形化方式比较了原始信号、加噪信号与经过LMS处理后的降噪信号之间的差异。此外，作者分享了一些实用的经验和技术要点，如参数选择的影响、误差曲线的解读等。适用人群：适用于具有一定MATLAB编程基础并对信号处理感兴趣的科研人员、工程师或学生。使用场景及目标：本教程旨在帮助读者掌握LMS算法的基本原理及其在实际项目中的应用方法，特别是在生物医学工程、机械故障诊断等领域中处理含噪信号的任务。同时，也为进一步探索其他类型的自适应滤波技术和扩展到不同的信号处理任务奠定了基础。其他说明：尽管LMS算法在处理平稳噪声方面表现出色，但在面对突发性的强干扰时仍存在一定局限性。因此，在某些特殊场合下，可能需要与其他滤波技术相结合以获得更好的效果。

基于TMS320F2812的光伏并网逆变器设计与MATLAB仿真及DSP代码实现: 内容概要：本文详细介绍了基于TMS320F2812 DSP芯片的光伏并网逆变器设计方案，涵盖了主电路架构、控制算法、锁相环实现、环流抑制等多个关键技术点。首先，文中阐述了双级式结构的主电路设计，前级Boost升压将光伏板输出电压提升至约600V，后级采用三电平NPC拓扑的IGBT桥进行逆变。接着，深入探讨了核心控制算法，如电流PI调节器、锁相环(SOFGI)、环流抑制等，并提供了详细的MATLAB仿真模型和DSP代码实现。此外，还特别强调了PWM死区时间配置、ADC采样时序等问题的实际解决方案。最终，通过实验验证，该方案实现了THD小于3%，MPPT效率达98.7%，并有效降低了并联环流。适合人群：从事光伏并网逆变器开发的电力电子工程师和技术研究人员。使用场景及目标：适用于光伏并网逆变器的研发阶段，帮助工程师理解和实现高效稳定的逆变器控制系统，提高系统的性能指标，减少开发过程中常见的错误。其他说明：文中提供的MATLAB仿真模型和DSP代码可以作为实际项目开发的重要参考资料，有助于缩短开发周期，提高成功率。

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论