【笔记】lucene学习笔记1(基于4.7.2学习)

fair_jm

浏览: 433964 次
性别:
来自: 杭州

最近访客更多访客>>

yishiyouya

jAmEs_

xyz86868

oyyl01

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

java菜鸟笔记
lucene学习笔记

本文来自:fair-jm.iteye.com 转截请注明出处

学习的材料是北风网的课程:

写道

基于Lucene4.6+Solr4.6+Heritrix1.14+S2SH实战开发从无到有垂直搜索引擎
http://www.ibeifeng.com/goods-378.html

代码是边看视频边自己码的不知道是否侵权如有侵权请告知会立即删除

lucene的版本更新也挺快的这套视频我刚买的时候还是4.6.0 昨天看到lucene那已经到4.7.2了

于是用4.7.2做为学习的版本

索引的建立和读取

主要是两个类

IndexWriter和IndexReader

最初的demo也是根据这两个类展开

IndexWriter的构造方法如下:

IndexWriter(Directory d, IndexWriterConfig conf)
Constructs a new IndexWriter per the settings given in conf.

需要一个Directory和IndexWriterConfig对象作为参数

其中Directory表示索引存放的路径

IndexWriter包含使用lucene版本(lucene各版本不兼容)和Analyzer(分词器)

代码如下:

//使用标准分词器
Analyzer analyzer = new StandardAnalyzer(Version.LUCENE_47);
//使用FSDirectory的open方法打开磁盘上的目录
Directory dir = FSDirectory.open(indexPath.toFile());
//设置IndexWriterConfig
IndexWriterConfig config = new IndexWriterConfig(Version.LUCENE_47,
					analyzer);

得到IndexWriter 需要写入Document对象 Document对象内有很多的Field

也就是将Field填入Document对象再由IndexWriter写入到磁盘内

代码如下:

			try (IndexWriter iw = new IndexWriter(dir, config)) {
				Document doc = new Document();

				// id:1 title:key1 key2 content:key3 key4
				// StringField不分词 查询时要输入完整的查询 例如输入 key1 就不会得到结果
				// TextField是分词的 查询词输入 key3或者key4会得到结果 但是输入key3 key4就不会得到结果了
				IndexableField idField = new IntField("id", 1, Field.Store.YES);
				IndexableField titleField = new StringField("title",
						"key1 key2", Field.Store.YES);
				IndexableField contentField = new TextField("content",
						"key3 key4", Field.Store.YES);

				doc.add(idField);
				doc.add(titleField);
				doc.add(contentField);

				iw.addDocument(doc);

				iw.commit();
			}
		} catch (IOException e) {
			e.printStackTrace();
		}

简单的索引建立就完成了(以上代码花括号不配对是中间截了一下 try没截取代码中的try是try-with-resources)

然后是通过索引获取内容

需要IndexReader对象可以通过DirectoryRedaer.open方法得到(传入的参数是放索引的目录)

然后通过IndexSearch传入Query对象参数进行查询查询得到TopDocs的对象再进一步得到document的id

将id传入IndexReader的document方法后获得具体的Document对象(好绕啊有没有.....)

最后通过Document对象的get方法传入key 得到value(我所说的key就是上面代码中IndexabelField的第一个参数)

看具体代码:

	public static void searcherDemo(Path indexPath) {
		try {
			Directory dir = FSDirectory.open(indexPath.toFile());
			try (IndexReader reader = DirectoryReader.open(dir)) {
				IndexSearcher search = new IndexSearcher(reader);
				
			    Query query = new TermQuery(new Term("content", "key3 key4")); //这样查询不到  因为TextField是进行分词的
//				Query query = NumericRangeQuery.newIntRange("id", 1, 1, true,true);
				TopDocs topDocs = search.search(query, 10);

				int hits = topDocs.totalHits;
				System.out.println("hits:" + hits);
				ScoreDoc[] scoreDocs = topDocs.scoreDocs;
				for (ScoreDoc sd : scoreDocs) {
					int docId = sd.doc;
					Document doc = reader.document(docId);
					System.out.println(doc.get("id") + ":" + doc.get("title")
							+ ":" + doc.get("content"));
				}
			}
		} catch (IOException e) {
			e.printStackTrace();
		}
	}

简单记录一下笔记和代码~需要完整教程的可以购买北风网的视频(我可不是打广告喂....

0
顶

0
踩

分享到：

Android数据存储与多媒体(笔记) | 使用JSoup进行新浪微博抓取(不用新浪的AP ...

2014-04-16 16:38
浏览 2352
评论(0)
分类:编程语言
查看更多

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

【分享：lucene学习资料】---<下载不扣分，回帖加1分，欢迎下载，童叟无欺>: 1> lucene学习笔记 2> 全文检索的实现机制【1】lucene学习笔记的目录如下 1. 概述 3 2. lucene 的包结构 3 3. 索引文件格式 3 4. lucene中主要的类 4 4.1. Document文档类 4 4.1.1. 常用方法 4 4.1.2. 示例 4 4.2...

分布式电源接入配电网的技术挑战与解决方案：风光互补无功补偿及PSO优化: 内容概要：本文探讨了分布式电源（DG）接入配电网所带来的技术挑战及其解决方案。首先介绍了DG接入对配电网潮流分布和电压稳定性的影响，随后详细讨论了风光互补无功补偿技术的应用，旨在稳定电压和提高电能质量。接着，文章阐述了粒子群算法（PSO）在电气互联和故障点位定位中的应用，展示了其在优化电网拓扑结构和快速准确定位故障方面的优势。最后，通过Simulink建模和仿真实验，验证了所提出的方法和技术的有效性。适合人群：从事电力系统研究、分布式电源集成、智能电网优化的专业人士，以及对相关技术感兴趣的工程技术人员。使用场景及目标：适用于分布式电源接入配电网的设计与优化，特别是在解决电压波动、无功补偿不足和故障定位不准等问题时。目标是提升配电网的稳定性和效率，确保电力系统的可靠运行。其他说明：文中提供了多个Matlab和Python代码示例，用于具体实现风光互补无功补偿、粒子群优化算法以及Simulink仿真模型，便于读者理解和实践。

基于博途V15的1500系列PLC六层电梯SCL编程与梯形图实现: 内容概要：本文详细介绍了使用博途V15软件和1500系列PLC实现单部六层电梯控制系统的SCL编程方法及其梯形图实现。主要内容涵盖电梯的基本控制逻辑，如楼层升降、平层停靠、呼叫响应等。文中通过具体代码示例展示了如何定义关键变量、处理楼层呼叫信号、实现电梯运行和平层停靠逻辑。此外，还讨论了状态机的设计、方向决策算法以及开关门控制等重要环节。文章强调了SCL语言在处理复杂逻辑方面的优势，并对比了梯形图在故障诊断时的直观性。适合人群：对工业自动化控制感兴趣的技术人员，尤其是熟悉西门子PLC编程的工程师。使用场景及目标：适用于需要深入了解电梯控制系统编程原理和技术实现的人群。目标是帮助读者掌握SCL语言和梯形图在电梯控制中的应用，提高编程技能。其他说明：文章提供了完整的代码片段和详细的解释，有助于读者理解和实践。同时提醒读者关注实际应用中的细节问题，如安全保护机制、信号防抖处理等。

电力电子领域LLC谐振变换器的MATLAB/Simulink仿真及软开关实现: 内容概要：本文详细介绍了如何使用MATLAB/Simulink对全桥和半桥LLC谐振变换器进行仿真，涵盖驱动配置、谐振参数计算、软开关验证以及闭环控制等方面。首先，文章讲解了半桥LLC的基本配置，包括PWM生成、死区时间和谐振参数的设定。接着，讨论了全桥LLC的扩展及其相对于半桥的优势，如更宽的增益范围和更好的输入电压适应性。然后，深入探讨了软开关的验证方法，强调了ZVS（零电压开关）的重要性和实现方式。最后，介绍了闭环控制的设计思路，包括PID控制器的应用和参数调整技巧。适合人群：从事电力电子设计的研究人员和技术工程师，尤其是那些希望深入了解LLC谐振变换器仿真和优化的人群。使用场景及目标：适用于需要进行LLC谐振变换器仿真的项目，旨在帮助工程师掌握从基本配置到高级控制的完整流程，确保高效稳定的电源转换系统设计。其他说明：文中提供了大量MATLAB代码片段，便于读者理解和实践。此外，还给出了许多实用的调试建议和注意事项，有助于避免常见错误并提高仿真成功率。

居民健康监测系统 2025免费JAVA微信小程序毕设: 2025免费微信小程序毕业设计成品，包括源码+数据库+往届论文资料，附带启动教程和安装包。启动教程：https://www.bilibili.com/video/BV1BfB2YYEnS 讲解视频：https://www.bilibili.com/video/BV1BVKMeZEYr 技术栈：Uniapp+Vue.js+SpringBoot+MySQL。开发工具：Idea+VSCode+微信开发者工具。

宿舍管理系统 2025免费JAVA微信小程序毕设: 2025免费微信小程序毕业设计成品，包括源码+数据库+往届论文资料，附带启动教程和安装包。启动教程：https://www.bilibili.com/video/BV1BfB2YYEnS 讲解视频：https://www.bilibili.com/video/BV1BVKMeZEYr 技术栈：Uniapp+Vue.js+SpringBoot+MySQL。开发工具：Idea+VSCode+微信开发者工具。

电力系统中同步发电机短路与电弧仿真的关键技术及其实现: 内容概要：本文详细介绍了同步发电机短路仿真和电弧仿真的重要性及其具体实现方法。首先讨论了同步发电机短路仿真的核心基础——派克变换，展示了如何利用Python进行派克变换的代码实现，并解释了短路电流的计算方法，包括次暂态电流、暂态电流和稳态电流。接着，文章探讨了电弧仿真的物理特性和数学模型，特别是经典的Mayr电弧模型，并给出了Matlab代码示例。此外，还提到了电弧在不同环境条件下的特性研究，如气压、湿度等因素对电弧的影响。最后，文章强调了这两种仿真在电力系统动态分析中的应用场景，特别是在评估短路故障对发电机及周边设备的影响方面的作用。适合人群：从事电力系统研究的专业人士、电气工程师、高校师生及相关领域的研究人员。使用场景及目标：适用于需要深入了解同步发电机短路和电弧仿真原理的研究人员和技术人员，旨在提高电力系统的安全性、可靠性，优化保护措施的设计。其他说明：文中不仅提供了理论知识，还附带了具体的代码实现，便于读者理解和实践。同时，文章指出了仿真过程中可能出现的问题及解决方案，如数值稳定性问题和接口时序处理等。

学生选课系统 2025免费JAVA微信小程序毕设: 2025免费微信小程序毕业设计成品，包括源码+数据库+往届论文资料，附带启动教程和安装包。启动教程：https://www.bilibili.com/video/BV1BfB2YYEnS 讲解视频：https://www.bilibili.com/video/BV1BVKMeZEYr 技术栈：Uniapp+Vue.js+SpringBoot+MySQL。开发工具：Idea+VSCode+微信开发者工具。

基于Selenium模拟浏览器行为的小红书关键词搜索和笔记爬取源码+文档说明: 基于Selenium模拟浏览器行为的小红书关键词搜索和笔记爬取源码+文档说明，个人经导师指导并认可通过的高分设计项目，评审分99分，代码完整确保可以运行，小白也可以亲自搞定，主要针对计算机相关专业的正在做大作业的学生和需要项目实战练习的学习者，可作为毕业设计、课程设计、期末大作业。基于Selenium模拟浏览器行为的小红书关键词搜索和笔记爬取源码+文档说明基于Selenium模拟浏览器行为的小红书关键词搜索和笔记爬取源码+文档说明基于Selenium模拟浏览器行为的小红书关键词搜索和笔记爬取源码+文档说明基于Selenium模拟浏览器行为的小红书关键词搜索和笔记爬取源码+文档说明基于Selenium模拟浏览器行为的小红书关键词搜索和笔记爬取源码+文档说明基于Selenium模拟浏览器行为的小红书关键词搜索和笔记爬取源码+文档说明基于Selenium模拟浏览器行为的小红书关键词搜索和笔记爬取源码+文档说明基于Selenium模拟浏览器行为的小红书关键词搜索和笔记爬取源码+文档说明基于Selenium模拟浏览器行为的小红书关键词搜索和笔记爬取源码+文档说明基于Selenium模拟浏览器行为的小红书关键词搜索和笔记爬取源码+文档说明基于Selenium模拟浏览器行为的小红书关键词搜索和笔记爬取源码+文档说明基于Selenium模拟浏览器行为的小红书关键词搜索和笔记爬取源码+文档说明基于Selenium模拟浏览器行为的小红书关键词搜索和笔记爬取源码+文档说明基于Selenium模拟浏览器行为的小红书关键词搜索和笔记爬取源码+文档说明基于Selenium模拟浏览器行为的小红书关键词搜索和笔记爬取源码+文档说明基于Selenium模拟浏览器行为的小红书关键词搜索和笔记爬取源码+文档说明基于Selenium模拟浏览器行为的小红书关键词搜索和笔记爬取源码+文档说明基于Selenium模

医笙小程序系统 2025免费JAVA微信小程序毕设: 2025免费微信小程序毕业设计成品，包括源码+数据库+往届论文资料，附带启动教程和安装包。启动教程：https://www.bilibili.com/video/BV1BfB2YYEnS 讲解视频：https://www.bilibili.com/video/BV1BVKMeZEYr 技术栈：Uniapp+Vue.js+SpringBoot+MySQL。开发工具：Idea+VSCode+微信开发者工具。

工业自动化中高速追剪飞锯系统的维伦通触摸屏与台达PLC程序解析: 内容概要：本文深入探讨了高速追剪飞锯系统的实现细节，特别是维伦通触摸屏和台达PLC之间的协同工作。触摸屏作为人机交互界面，允许操作员设置如切割长度、运行速度等参数，并通过与PLC寄存器的关联实现数据传输。台达PLC则负责执行复杂的电子凸轮追剪算法，确保切割过程的高精度和稳定性。文中还介绍了关键的PLC指令，如MC_GearIn和CAM_GEN，以及它们在速度同步和位置控制中的应用。此外，文章揭示了一些调试技巧和潜在问题，如数据类型对齐、补偿算法和参数调整方法。适合人群：从事工业自动化领域的工程师和技术人员，尤其是那些对PLC编程和人机界面设计感兴趣的人。使用场景及目标：适用于需要理解和优化高速追剪飞锯系统的场合，旨在提高生产效率和产品质量。通过学习本文，读者可以掌握如何设置和调试此类系统，从而减少故障率并提升性能。其他说明：文章不仅提供了理论知识，还包括了许多实用的操作建议和经验分享，有助于读者更好地应对实际工作中遇到的技术挑战。

高速永磁同步电机Maxwell仿真：50000-100000rpm转速区间的电磁与机械设计挑战: 内容概要：本文详细探讨了高速永磁同步电机（HSPMSM）在50000-100000rpm转速范围内的设计与仿真挑战。首先介绍了高速电机的应用背景及其面临的离心力和电磁损耗等问题。接着，通过具体实例展示了如何利用Maxwell软件进行电机的几何建模、材料设置、边界条件与激励设置，并进行了详细的模拟结果分析。文中特别强调了在极端转速条件下，如10万转时，电机内部的物理现象以及相应的优化措施，如采用碳纤维护套增强机械强度、调整损耗计算模型以提高精度等。适合人群：从事电机设计与仿真的工程师和技术研究人员，尤其是对高速永磁同步电机感兴趣的从业者。使用场景及目标：适用于希望深入了解高速永磁同步电机设计原理及仿真技巧的人群，旨在帮助他们掌握Maxwell软件的具体应用方法，解决实际工程中遇到的技术难题，如高转速下的电磁兼容性和机械可靠性问题。其他说明：文章不仅提供了理论指导，还包括大量实用的操作步骤和代码示例，有助于读者快速上手并应用于实际工作中。此外，文中提到的一些特殊处理方式（如碳纤维护套的应用），为解决特定工况下的技术瓶颈提供了新思路。

浪潮英信服务器 SA5212M5 用户手册: 浪潮英信服务器 SA5212M5 用户手册

COMSOL仿真中放电电极击穿空气的电场分布与击穿电压计算: 内容概要：本文详细介绍了如何使用COMSOL进行放电电极击穿空气的仿真。首先构建了一个针尖电极和球头圆柱电极组成的模型，设置了静电和电流耦合的物理场，并进行了网格优化。通过参数化扫描和MATLAB脚本，计算不同间隙距离下的击穿电压，并利用Paschen曲线进行验证。同时探讨了电场强度在尖端的集中现象及其对击穿的影响，提出了改进网格质量和求解器设置的方法。最后，通过电场矢量图和电势分布图展示了仿真的结果。适合人群：从事电磁场仿真、电气工程、等离子体物理等相关领域的研究人员和技术人员。使用场景及目标：适用于需要精确计算电极间击穿电压和电场分布的研究项目，帮助设计高压设备和评估电极结构的安全性和可靠性。其他说明：文中提供了详细的建模步骤和代码片段，便于读者复现实验结果。同时强调了网格质量、边界条件和求解器设置对仿真准确性的重要影响。

家居项目后端资源采用ssm架构: 家居项目后端资源采用ssm架构

互联网大厂面试题合集：并发编程面试题-重点.pdf: 整理一线大厂面试题合集

牵牛花铅笔素材儿童教学课件模板.pptx: 牵牛花铅笔素材儿童教学课件模板

我的日记 2025/4/19: 2024年的记录。

互联网大厂面试题合集：Linux操作系统面试题.pdf: 整理一线大厂面试题合集

Apollo 7.0行为预测模块升级：轨迹交互与评估器设计详解及其应用: 内容概要：本文详细解析了Apollo 7.0行为预测模块的关键升级点，主要包括新增的Inter-TNT模式、VECTORNET_EVALUATOR以及JOINTLY_PREDICTION_PLANNING_EVALUATOR。这些组件通过引入轨迹交互模拟、动态归一化、联合预测规划等创新机制，显著提高了障碍物轨迹预测的准确性和场景适应性。特别是在处理复杂交通场景如高速公路变道、十字路口交汇时表现出色。此外，文中还介绍了增量式特征更新机制的应用，有效减少了CPU占用，提升了系统的实时性能。适用人群：适用于对自动驾驶技术感兴趣的开发者、研究人员和技术爱好者，尤其是那些希望深入了解Apollo平台行为预测模块工作原理的人群。使用场景及目标：①帮助读者理解Apollo 7.0行为预测模块的技术细节；②指导开发者如何利用这些新技术提升自动驾驶系统的预测精度；③为研究者提供有价值的参考资料，促进相关领域的进一步探索。其他说明：文章不仅提供了详细的代码解读，还包括了实际应用场景中的效果对比，使读者能够全面掌握新旧版本之间的差异。同时，附带的思维导图有助于快速理清各个子模块之间的调用关系和数据流向。

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论