Lucene与搜索引擎技术(Document包详解）

banditjava

浏览: 161285 次
性别:
来自: 北京

最近访客更多访客>>

wangyy

pengcong90

superlongde

Mr_Tian_ht

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

搜索引擎

搜索引擎 lucene 数据结构 F#

Document 包分析

理解 Document

Lucene 没有定义数据源 , 而是定义了一个通用的文档结构 , 这个文档结构就是 LuceneDocument 包下的 Document 类 .

一个 Document 对应于你在进行网页抓取的时候一个 msword, 一个 pdf, 一个 html, 一个 text 等 .Lucene 的这种形式可以定义

非常灵活的应用 , 只要前端有相应的转换器把数据源转成 Document 结构就可以了 .

一个 Document 内部维护一个 Field 的 vector.

好 , 我们一起来看一下 document 的核心源码 ( 只有定义 , 没有实现 )

public final class Document implements java.io.Serializable {

List fields = new Vector();// 成员变量

//boost 用来表示此 document 的重要程度 , 默认为 1.0, 会作用于 document 中的所有的 field

private float boost = 1.0f;

public Document() {}

public void setBoost(float boost) {this.boost = boost;}

public float getBoost() {return boost;}

public final void add(Field field)

public final void removeField(String name)

public final void removeFields(String name)

public final Field getField(String name)

public final String get(String name)

public final Enumeration fields()

public final Field[] getFields(String name)

public final String[] getValues(String name)

public final String toString()

理解 Field

刚才提到一个 Document 中有一个用来存储 Field 的 vector, 那么什么是 Field. 你可以简单的认为 Field 是一个 <name,value>

name 为域（ Field ）的名字，例如 title ， body ， subject ， data 等等。 value 就是文本。我们来看一下源码定义 , 不就 OK 了 .

( 由于 Field 是 Lucene 中非常重要的概念 , 所以我们拿来源码看一下 )

public final class Field implements java.io.Serializable {

private String name = "body";

private String stringValue = null;

private boolean storeTermVector = false;

private Reader readerValue = null;

private boolean isStored = false;

private boolean isIndexed = true;

private boolean isTokenized = true;

/* 以前一直不了解 boost 为何？其实 boost 就是由于后来进行相关度排序时用的 , 由于在 query 时，

* 每个 term 都分属与一个 field 。同样的 term 当其属于不同的 field 时，其重要性不一样，譬如

*field:<title> 中的 term 就要比 field:<content> 中的 term 重要！而这个重要性如何体现就

* 可以通过 boost 进行设定。可以把 field:<title> 的 boost 至设大一些

* 注意 boost 在 Document 中还有整个的设定 .

private float boost = 1.0f;

public void setBoost(float boost) {this.boost = boost;}

public float getBoost() { return boost;}

public static final Field Keyword(String name, String value) {return new Field(name, value, true, true, false);}

public static final Field UnIndexed(String name, String value) {return new Field(name, value, true, false, false);}

public static final Field Text(String name, String value) {return Text(name, value, false);}

public static final Field Keyword(String name, Date value) {return new Field(name, DateField.dateToString(value), true, true, false);}

public static final Field Text(String name, String value, boolean storeTermVector) {

return new Field(name, value, true, true, true, storeTermVector);}

public static final Field UnStored(String name, String value) {

return UnStored(name, value, false);}

public static final Field UnStored(String name, String value, boolean storeTermVector) {

return new Field(name, value, false, true, true, storeTermVector); }

public static final Field Text(String name, Reader value) {

return Text(name, value, false);}

public static final Field Text(String name, Reader value, boolean storeTermVector) {

Field f = new Field(name, value);

f.storeTermVector = storeTermVector;

return f;

}

public String name() { return name; }

public String stringValue() { return stringValue; }

public Reader readerValue() { return readerValue; }

public Field(String name, String string,

boolean store, boolean index, boolean token) {

this(name, string, store, index, token, false);

}

// 最低层的构造函数

public Field(String name, String string,

boolean store, boolean index, boolean token, boolean storeTermVector)

Field(String name, Reader reader)

public final boolean isStored() { return isStored; }

public final boolean isIndexed() { return isIndexed; }

public final boolean isTokenized() { return isTokenized; }

public final boolean isTermVectorStored() { return storeTermVector; }

public final String toString()

public final String toString2()// 我加的用来返回六元组

}

代码可能看起来有点长 , 不过看一下就知道了 Field 其实是一个六元组 , 咱们上文说其是 <name,value> 对是一种简化形式 .

Field 的六元组形式为 <name,stringValue,isStored,isIndexed,isTokenized,isTermVectorStored>,Field 提供了不同的构造函数

主要有一下几个

方法	切词	索引	存储	用途
Field.Text(String name, String value)	Yes	Yes	Yes	切分 , 索引 , 并存储，比如： title ， subject
Field Text(String name, Reader value)	Yes	Yes	Yes	与上面同 , Term Vector 并不存储此 Field
Field Text(String name, String value, boolean storeTermVector)	Yes	Yes	Yes	切分 , 索引 , 存储，比如： title,subject. 于上面不同的加入了一个控制变量
Field Text(String name, Reader value, boolean storeTermVector)	Yes	Yes	Yes	切分 , 索引 , 存储，比如： title,subject. 于上面不同的加入了一个控制变量
Field.Keyword(String name, String value)	No	Yes	Yes	不切分 , 索引 , 存储，比如： date,url
Field Keyword(String name, Date value)				不切分 , 存储 , 索引 , 用来返回 hits
Field.UnIndexed(String name, String value)	No	No	Yes	不切分 , 不索引，存储，比如：文件路径
Field.UnStored(String name, String value)	Yes	Yes	No	只全文索引，不存储
Field UnStored(String name, String value, boolean storeTermVector)	Yes	Yes	No	于上面相同 , 不同的是加入了一个控制变量

总的来看 ,Field 的构造函数就只有四种形式 ,Text,KeyWord,UnIndexed,UnStored, 只不过每种函数往往有多种变形罢了 .

编一段代码来测试一下 Document 类和 Field 类

public class TestDocument

{

private Document makeDocumentWithFields() throws IOException

{

Document doc = new Document();

doc.add(Field.Text("title","title"));

doc.add(Field.Text("subject","ubject"));

doc.add(Field.Keyword("date","2005.11.12"));

doc.add(Field.Keyword("url","www.tju.edu.cn"));

doc.add(Field.UnIndexed("filepath","D:\\Lucene"));

doc.add(Field.UnStored("unstored","This field is unstored"));

Field field;

for(int i=0;i<doc.fields.size();i++)

{

field =(Field)doc.fields.get(i);

System.out.println(field.toString());

System.out.println(" 对应的六元组形式为 ");

System.out.println(field.toString2());

}

return doc;

}

public void GetValuesForIndexedDocument() throws IOException

{

RAMDirectory dir = new RAMDirectory();

IndexWriter writer = new IndexWriter(dir,new StandardAnalyzer(),true);

writer.addDocument(makeDocumentWithFields());

writer.close();

Searcher searcher = new IndexSearcher(dir);

Query query = new TermQuery(new Term("title","title"));

//Hits 由匹配的 Document 组成 .

Hits hits = searcher.search(query);

System.out.println("Document 的结构形式 ");

System.out.println(hits.doc(0));

<spa>

分享到：

Lucene于搜索引擎技术(Analysis包详解) | Lucene的查询语法

2008-09-22 14:54
浏览 1747
评论(0)
分类:互联网
查看更多

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

用OpenGL开发的机械臂运动仿真程序,并且实现机械手臂向四个方向的旋转.rar: OpenGL是一种强大的图形库，用于创建2D和3D图形，广泛应用于游戏开发、科学可视化、工程设计等领域。在这个项目中，我们看到一个基于OpenGL的机械臂运动仿真程序，它能够实现机械臂在四个方向上的旋转。这样的模拟对于理解机械臂的工作原理、机器人控制算法以及进行虚拟环境中的机械臂运动测试具有重要意义。我们需要了解OpenGL的基础知识。OpenGL是一个跨语言、跨平台的编程接口，用于渲染2D和3D矢量图形。它提供了大量的函数来处理图形的绘制，包括几何形状的定义、颜色设置、光照处理、纹理映射等。开发者通过OpenGL库调用这些函数，构建出复杂的图形场景。在这个机械臂仿真程序中，C#被用来作为编程语言。C#通常与Windows平台上的.NET Framework配合使用，提供了一种面向对象的、类型安全的语言，支持现代编程特性如LINQ、异步编程等。结合OpenGL，C#可以构建高性能的图形应用。机械臂的运动仿真涉及到几个关键的计算和控制概念： 1. **关节角度**：机械臂的每个部分（或关节）都有一个或多个自由度，表示为关节角度。这些角度决定了机械臂各部分的位置和方向。 2. **正向运动学**：根据关节角度计算机械臂末端执行器（如抓手）在空间中的位置和方向。这涉及将各个关节的角度转换为欧拉角或四元数，然后转化为笛卡尔坐标系的X、Y、Z位置和旋转。 3. **反向运动学**：给定末端执行器的目标位置和方向，计算出各关节所需的理想角度。这是一个逆向问题，通常需要解决非线性方程组。 4. **运动规划**：确定从当前状态到目标状态的路径，确保机械臂在运动过程中避免碰撞和其他约束。 5. **OpenGL的使用**：在OpenGL中，我们首先创建几何模型来表示机械臂的各个部分。然后，使用矩阵变换（如旋转、平移和缩放）来更新关节角度对模型的影响。这些变换组合起来，形成机械臂的动态运动。 6. **四向旋转**：机械臂可能有四个独立的旋转轴，允许它在X、Y、Z三个轴上旋转，以及额外的绕自身轴线的旋转。每个轴的旋转都由对应的关节角度控制。 7. **交互控制**：用户可能可以通过输入设备（如鼠标或键盘）调整关节角度，实时观察机械臂的运动。这需要将用户输入转换为关节角度，并应用到运动学模型中。 8. **图形渲染**：OpenGL提供了多种渲染技术，如深度测试、光照模型、纹理映射等，可以用于提高机械臂模拟的真实感。例如，可以添加材质和纹理来模拟金属表面，或者使用光照来增强立体感。这个项目结合了OpenGL的图形渲染能力与C#的编程灵活性，构建了一个可以直观展示机械臂运动的仿真环境。通过理解并实现这些关键概念，开发者不仅能够学习到图形编程技巧，还能深入理解机器人学的基本原理。

android11 udpate-engine 系统升级模块源码: android11 udpate-engine 系统升级模块源码下载

MATLAB环境下SVM二分类算法的实现与参数优化: 内容概要：本文详细介绍了如何在MATLAB环境中实现SVM二分类算法，涵盖数据预处理、参数寻优及结果可视化的全过程。首先进行数据归一化处理，确保各特征在同一量纲下参与模型训练。接着采用网格搜索法对SVM的关键参数c（惩罚系数）和g（核参数）进行自动化寻优，利用5折交叉验证评估每组参数的表现。最后通过等高线图和3D曲面图直观展示参数与准确率之间的关系，并完成最终模型的训练与预测。适合人群：具有一定MATLAB编程基础的研究人员和技术爱好者，尤其是从事机器学习、数据分析领域的从业者。使用场景及目标：适用于需要快速搭建SVM二分类模型并进行参数调优的项目。主要目标是在短时间内获得较高准确度的分类结果，同时掌握SVM的工作原理及其在MATLAB中的具体应用方法。其他说明：文中提供了完整的代码示例，便于读者直接上手实践。此外还提到了一些常见的注意事项，如数据格式要求、类别不平衡处理以及特征工程的重要性等。

ffmpeg liblame pcm转mp3教程.zip: ffmpeg

江科大CAN入门教程，万字长文理解: 江科大CAN入门教程，万字长文理解

移动电源设计方案详解：基于新唐N79E814单片机的双路输出PCB设计与实现: 内容概要：本文详细介绍了基于新唐N79E814单片机的移动电源设计方案，涵盖硬件架构、PCB原理图、电路设计、代码实现等方面。移动电源主要由电池、充电电路和输出电路构成，文中重点讲解了5V1A和5V2.1A两路输出的设计思路，包括同步整流、PWM控制、充电管理等关键技术。同时，文章还探讨了PCB布局、烧录注意事项、效率优化等内容，并提供了具体的代码示例和调试建议。适合人群：具有一定电子技术和单片机开发基础的工程师和技术爱好者。使用场景及目标：适用于希望深入了解移动电源设计原理和实现方法的人群，旨在帮助读者掌握从原理图绘制到实际产品制作的全过程，提升电路设计和调试能力。其他说明：文章不仅提供了理论知识，还包括大量实践经验分享，如常见的调试陷阱和解决方法，有助于读者在实践中少走弯路。

动漫角色分割-基于深度学习实现的高精度动漫角色分割算法-附项目源码-优质项目实战.zip: 动漫角色分割_基于深度学习实现的高精度动漫角色分割算法_附项目源码_优质项目实战

一款Java通过javacv实现的支持各种音视频播放的播放器项目源码: javacv实现的支持多种音视频播放的播放器，比如MP4、avi、mkv、flv、MP3、ogg、wav、au等多种音视频格式，非常好用。

浏览器插件+JS+自动登录+demo: 开发调试demo,简单的自动登录功能,插件开发入门参考

【计算机管理与注册表编辑】Windows系统管理员工具与用户账户管理：本地用户和组、远程桌面配置及SAM权限设置，具体教学与批处理可私信我: 内容概要：本文详细介绍了通过修改Windows注册表来启用和配置被禁用的用户账户（如WDAGUtilityAccount）的过程。首先，通过计算机管理界面查看被禁用的用户账户，并进入注册表编辑器定位到HKEY_LOCAL_MACHINE\SAM\SAM\Domains\Account\Users路径下的相应用户条目。接着，通过对特定用户的二进制数据进行编辑，包括复制和修改关键字段，实现对被禁用账户的克隆与重新启用。最后，验证账户状态的变化，并通过远程桌面连接测试新配置的有效性。适合人群：具备一定Windows系统管理基础的技术人员，尤其是负责企业内部网络和用户账户管理的IT管理员。使用场景及目标：①当需要恢复或重新配置被禁用的用户账户时；②在进行系统故障排除或安全审计时，了解如何通过注册表直接操作用户账户；③确保特定用户能够正常登录并访问远程桌面服务。阅读建议：本文涉及较为底层的系统操作，建议读者在实际操作前充分备份系统和注册表，避免误操作导致系统不稳定。同时，对于不熟悉注册表编辑的用户，应先在测试环境中练习，确保掌握相关技能后再应用于生产环境。此外，建议结合官方文档或其他权威资料，加深对Windows用户账户管理机制的理解。

新冠抗原自测平台 2025免费JAVA微信小程序毕设: 2025免费微信小程序毕业设计成品，包括源码+数据库+往届论文资料，附带启动教程和安装包。启动教程：https://www.bilibili.com/video/BV1BfB2YYEnS 讲解视频：https://www.bilibili.com/video/BV1BVKMeZEYr 技术栈：Uniapp+Vue.js+SpringBoot+MySQL。开发工具：Idea+VSCode+微信开发者工具。

基于S7-1200 PLC的两部六层电梯控制系统设计与梯形图编程详解: 内容概要：本文详细介绍了基于西门子S7-1200 PLC的两部六层电梯控制系统的设计与实现。主要内容涵盖前期准备工作，如选择合适的PLC型号和配置硬件；核心逻辑部分深入讲解了梯形图编程的具体实现方法，包括楼层呼叫逻辑、电梯运行方向控制以及两部电梯之间的协同工作；此外，文章还探讨了仿真测试的方法及其重要性，提供了许多实用技巧和注意事项。通过具体实例展示了如何利用博途V15软件进行电梯系统的开发，并分享了一些实际操作中的经验和常见问题解决方案。适合人群：从事工业自动化领域的工程师和技术人员，特别是那些对PLC编程有兴趣或者正在参与类似项目的从业者。使用场景及目标：适用于需要理解和掌握S7-1200 PLC编程技能的人群，尤其是希望通过实际案例加深对梯形图编程理解的学习者。目标是在实践中提高编程能力，能够独立完成类似的工程项目。其他说明：文中不仅包含了详细的理论解释，还有丰富的代码片段供读者参考。对于初学者而言，建议先从单部电梯开始练习，逐步过渡到复杂的双梯联调。同时，作者强调了仿真测试的重要性，指出这是验证程序正确性和优化性能的关键步骤。

农产品自主供销系统 2025免费JAVA微信小程序毕设: 2025免费微信小程序毕业设计成品，包括源码+数据库+往届论文资料，附带启动教程和安装包。启动教程：https://www.bilibili.com/video/BV1BfB2YYEnS 讲解视频：https://www.bilibili.com/video/BV1BVKMeZEYr 技术栈：Uniapp+Vue.js+SpringBoot+MySQL。开发工具：Idea+VSCode+微信开发者工具。

大学英语四级听力练习音频MP3: 内容概要：该资源为大学英语四级听力练习音频 MP3，包含丰富多样的听力素材。涵盖四级考试常见的各类场景，如校园生活（课程学习、社团活动等）、日常社交（聚会、聊天等）、工作求职（面试、职场事务等）、旅行交通（出行方式、景点介绍等）、饮食健康（餐厅点餐、健康养生等）。音频内容依照四级听力考试题型和难度精心录制，有短对话、长对话、短文听力等形式，且语速、口音等符合四级考试要求，助力考生熟悉考试形式与节奏。适合人群：正在备考大学英语四级考试，希望提升听力水平的学生；英语基础中等，需要通过针对性练习来适应四级听力难度、提升听力理解能力的学习者；对英语听力学习有需求，想通过大量练习积累场景词汇、熟悉英语表达习惯的人群。能学到什么：①熟悉四级听力考试的各类场景词汇，增强词汇储备并提升在听力语境中的反应速度；②掌握不同场景下的英语常用表达和句式，提升英语语言运用能力；③锻炼听力理解技巧，如抓取关键词、推断隐含意思、梳理篇章逻辑等；④适应四级听力考试的语速、口音和题型设置，增强应试能力和自信心。阅读建议：制定系统的练习计划，定期定量进行听力练习，如每天安排 30 - 60 分钟；第一遍泛听，了解大致内容和主题；第二遍精听，逐句听写或分析不懂的词汇和句子；对照听力原文，明确错误和没听懂的地方，积累生词和表达；定期进行模拟测试，利用该音频模拟考试环境，检验学习效果并调整学习策略。

2000-2017年各省天然气消费量数据: 2000-2017年各省天然气消费量数据 1、时间：2000-2017年 2、来源：国家统计j、能源nj 3、指标：行政区划代码、城市、年份、天然气消费量 4、范围：31省

西门子PLC1200与库卡机器人协同控制系统的多设备集成方案: 内容概要：本文详细介绍了基于西门子PLC1200的自动化控制系统，涵盖了PLC与库卡机器人通过Profinet通讯、PTO模式控制松下伺服、36路模拟量处理（包括压力检测、位置检测及压力输出）、以及26个温控器通过485总线通讯的关键技术和实现方法。此外，还包括了昆仑通态触摸屏的人机交互界面设计，提供了详细的硬件组态、软件编程指导和设备操作说明。适合人群：从事工业自动化领域的工程师和技术人员，尤其是那些负责多设备协同控制项目的设计和实施的专业人士。使用场景及目标：适用于需要整合多种设备（如PLC、机器人、伺服系统、温控器等）的复杂自动化生产线。主要目标是提高生产效率、增强系统的稳定性和可靠性，同时降低维护成本。其他说明：文中不仅提供了具体的编程实例和硬件配置指南，还分享了许多实际调试过程中积累的经验教训，有助于读者在实际应用中少走弯路。

汽车电子基于AUTOSAR的BSW层功能详解：服务、驱动、接口与管理器模块设计及应用了文档的主要内容: 内容概要：本文深入探讨了AUTOSAR BSW（Basic Software）层所提供的各类服务、驱动、接口和管理器模块及其功能。BSW提供的服务包括I/O、Memory、Crypto、Communication、Off-board Communication和System等，涵盖了标准化的访问方式以确保不同硬件和系统的兼容性与安全性。BSW里的驱动分为内部驱动和外部驱动，分别用于控制和访问微控制器内部和外部的设备，确保硬件功能的正常运作。BSW里的接口（xx_IF）对下层模块进行抽象和封装，提供标准API接口，使上层应用无需关注底层硬件细节。BSW里的管理器（xxxM）则为多个客户端提供特定服务，能够修改或适配调整一些数据，以满足复杂需求。此外，文中还简要介绍了AUTOSAR里的库文件，它们是无状态的函数集合，可被多个模块调用以实现特定功能。适合人群：对汽车电子软件架构有一定了解，尤其是对AUTOSAR标准感兴趣的工程师和技术人员。使用场景及目标：①理解BSW层提供的各类服务及其应用场景；②掌握BSW中驱动、接口和管理器模块的设计原理和功能；③了解库文件的作用及其在AUTOSAR架构中的位置。其他说明：本文详细解释了BSW层各组件的功能和作用，帮助读者更好地理解AUTOSAR架构的设计思想和实现方法。建议读者结合实际项目经验，深入研究各模块的具体实现和应用场景。

西门子1200伺服步进FB块程序：支持多轴调用的自动化控制解决方案: 内容概要：本文介绍了西门子1200系列PLC的伺服步进FB块程序，该程序由两个FB块组成，分别采用SCL语言和梯形图编写，支持PTO和PN模式，适用于多种伺服系统和步进电机。程序经过实际调试，稳定性高，兼容性强，能够灵活应用于单轴或多轴控制系统。文中提供了详细的代码示例和调试指南，帮助用户快速上手并解决常见问题。适合人群：从事工业自动化控制领域的工程师和技术人员，尤其是使用西门子1200系列PLC进行项目开发的人员。使用场景及目标：①用于单轴或多轴伺服步进系统的控制；②提高项目的开发效率和稳定性；③减少重复开发的工作量，加快项目进度。其他说明：程序需要在TIA V14及以上版本打开，附带详细的文档说明和实际项目视频链接，方便用户理解和使用。

基于SpringBoot+Vue的电子招投标系统源码+数据库.zip: 基于SpringBoot+Vue的电子招投标系统源码+数据库.zip 高分通过项目，已获导师指导。本项目是一套基于Springboot的电子招投标系统，主要针对计算机相关专业的正在做毕设的学生和需要项目实战练习的Java学习者。也可作为课程设计、期末大作业包含：项目源码、数据库脚本、开发说明文档、演示视频等，该项目可以直接作为毕设使用。项目都经过严格调试，确保可以运行！基于SpringBoot+Vue的电子招投标系统源码+数据库.zip 高分通过项目，已获导师指导。本项目是一套基于Springboot的电子招投标系统，主要针对计算机相关专业的正在做毕设的学生和需要项目实战练习的Java学习者。也可作为课程设计、期末大作业包含：项目源码、数据库脚本、开发说明文档、演示视频等，该项目可以直接作为毕设使用。项目都经过严格调试，确保可以运行！基于SpringBoot+Vue的电子招投标系统源码+数据库.zip 高分通过项目，已获导师指导。本项目是一套基于Springboot的电子招投标系统，主要针对计算机相关专业的正在做毕设的学生和需要项目实战练习的Java学习者。也可

金秋风影桂林山水卡通儿童教学课件模板.pptx: 金秋风影桂林山水卡通儿童教学课件模板.pptx

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论