lucene应用

sacredlove

浏览: 12310 次
性别:
来自: 北京

最近访客更多访客>>

heands

flh141

zhaoxudong

sunnywindia

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

lucene

Lucene :其实很简单的,它最主要就是做两件事:建立索引和进行搜索
来看一些在lucene中使用的术语,这里并不打算作详细的介绍,只是点一下而已----因为这一个世界有一种好东西，叫搜索。

IndexWriter:lucene中最重要的的类之一，它主要是用来将文档加入索引，同时控制索引过程中的一些参数使用。

Analyzer:分析器,主要用于分析搜索引擎遇到的各种文本。常用的有StandardAnalyzer分析器,StopAnalyzer分析器,WhitespaceAnalyzer分析器等。

Directory:索引存放的位置;lucene提供了两种索引存放的位置，一种是磁盘，一种是内存。一般情况将索引放在磁盘上；相应地lucene提供了FSDirectory和RAMDirectory两个类。

Document:文档;Document相当于一个要进行索引的单元，任何可以想要被索引的文件都必须转化为Document对象才能进行索引。

Field：字段。

IndexSearcher:是lucene中最基本的检索工具，所有的检索都会用到IndexSearcher工具;

Query:查询，lucene中支持模糊查询，语义查询，短语查询，组合查询等等,如有TermQuery,BooleanQuery,RangeQuery,WildcardQuery等一些类。

QueryParser: 是一个解析用户输入的工具，可以通过扫描用户输入的字符串，生成Query对象。

Hits:在搜索完成之后，需要把搜索结果返回并显示给用户，只有这样才算是完成搜索的目的。在lucene中，搜索的结果的集合是用Hits类的实例来表示的。

上面作了一大堆名词解释，下面就看几个简单的实例吧:
1、简单的的StandardAnalyzer测试例子

package lighter.iteye.com;

import java.io.IOException;
import java.io.StringReader;

import org.apache.lucene.analysis.Analyzer;
import org.apache.lucene.analysis.Token;
import org.apache.lucene.analysis.TokenStream;
import org.apache.lucene.analysis.standard.StandardAnalyzer;

public class StandardAnalyzerTest 
{
	//构造函数，
	public StandardAnalyzerTest()
	{
	}
	public static void main(String[] args) 
	{
		//生成一个StandardAnalyzer对象
		Analyzer aAnalyzer = new StandardAnalyzer();
		//测试字符串
		StringReader sr = new StringReader("lighter javaeye com is the are on");
		//生成TokenStream对象
		TokenStream ts = aAnalyzer.tokenStream("name", sr);	
		try {
			int i=0;
			Token t = ts.next();
			while(t!=null)
			{
				//辅助输出时显示行号
				i++;
				//输出处理后的字符
				System.out.println("第"+i+"行:"+t.termText());
				//取得下一个字符
				t=ts.next();
			}
		} catch (IOException e) {
			e.printStackTrace();
		}
	}
}

显示结果：

引用
第1行:lighter
第2行:javaeye
第3行:com

提示一下：
StandardAnalyzer是lucene中内置的"标准分析器",可以做如下功能:
1、对原有句子按照空格进行了分词
2、所有的大写字母都可以能转换为小写的字母
3、可以去掉一些没有用处的单词，例如"is","the","are"等单词，也删除了所有的标点
查看一下结果与"new StringReader("lighter javaeye com is the are on")"作一个比较就清楚明了。
这里不对其API进行解释了，具体见lucene的官方文档。需要注意一点，这里的代码使用的是lucene2的API，与1.43版有一些明显的差别。

2、看另一个实例,简单地建立索引，进行搜索

package lighter.iteye.com;
import org.apache.lucene.analysis.standard.StandardAnalyzer;
import org.apache.lucene.document.Document;
import org.apache.lucene.document.Field;
import org.apache.lucene.index.IndexWriter;
import org.apache.lucene.queryParser.QueryParser;
import org.apache.lucene.search.Hits;
import org.apache.lucene.search.IndexSearcher;
import org.apache.lucene.search.Query;
import org.apache.lucene.store.FSDirectory;

public class FSDirectoryTest {

	//建立索引的路径
	public static final String path = "c:\\index2";

	public static void main(String[] args) throws Exception {
		Document doc1 = new Document();
		doc1.add( new Field("name", "lighter javaeye com",Field.Store.YES,Field.Index.TOKENIZED));

		Document doc2 = new Document();
		doc2.add(new Field("name", "lighter blog",Field.Store.YES,Field.Index.TOKENIZED));

		IndexWriter writer = new IndexWriter(FSDirectory.getDirectory(path, true), new StandardAnalyzer(), true);
		writer.setMaxFieldLength(3);
		writer.addDocument(doc1);
		writer.setMaxFieldLength(3);
		writer.addDocument(doc2);
		writer.close();

		IndexSearcher searcher = new IndexSearcher(path);
		Hits hits = null;
		Query query = null;
		QueryParser qp = new QueryParser("name",new StandardAnalyzer());
		
		query = qp.parse("lighter");
		hits = searcher.search(query);
		System.out.println("查找\"lighter\" 共" + hits.length() + "个结果");

		query = qp.parse("javaeye");
		hits = searcher.search(query);
		System.out.println("查找\"javaeye\" 共" + hits.length() + "个结果");

	}

}

运行结果：

Java代码
1.查找"lighter" 共2个结果
2.查找"javaeye" 共1个结果

分享到：

spring调用memcached client for java | EHCache

2012-02-16 10:30
浏览 1939
评论(1)
分类:互联网
查看更多

1 楼 spring_springmvc 2015-08-04

apache lucene开源框架demo使用实例教程源代码下载:http://www.zuidaima.com/share/klucene-p1-s1.htm

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

基于NSGA2与熵权TOPSIS的电力系统储能选址定容优化及Matpower潮流计算研究: 内容概要：本文详细探讨了利用NSGA2算法进行电力系统中储能系统的选址和定容优化，并结合熵权TOPSIS方法选择最优解。首先介绍了使用Matpower工具包进行潮流计算的基础步骤，随后深入讨论了储能系统引入后的复杂性和优化目标设定。文中展示了如何构建目标函数，包括储能的投资成本和系统电压偏差，并详细解释了NSGA2算法的具体实现，如种群初始化、交叉变异操作以及约束条件处理。最后，通过熵权法确定权重并应用TOPSIS方法对多个优化结果进行评估，选出综合性能最佳的储能配置方案。适合人群：从事电力系统规划、优化算法研究的专业人士，尤其是对储能系统优化感兴趣的科研人员和技术开发者。使用场景及目标：适用于需要解决电力系统中储能系统选址和定容问题的实际工程项目。主要目标是在满足系统稳定性要求的前提下，最小化储能系统的投资成本，提高系统的经济性和可靠性。其他说明：文章提供了详细的代码片段和理论推导，帮助读者更好地理解和实施所提出的优化方法。此外，还提到了一些实际应用中的注意事项，如SOC约束处理、参数选择等，为后续的研究和应用提供了宝贵的实践经验。

基于python+pyqt5实现视频自动化下载、剪辑和上传系统源码+项目说明.zip: 基于python+pyqt5实现视频自动化下载、剪辑和上传系统源码+项目说明.zip 该项目是用脚本实现部分视频网站视频内容的自动化下载、剪辑以及上传，其中界面是用PyQT做的。使用的浏览器驱动是undetected_chromedriver，可以跳过tiktok的机器人检查使用的浏览器是91，版本：Google_Chrome_(64bit)_v91.0.4472.77 【功能】自动从各种视频网站下载视频支持视频剪辑和合集制作支持自动上传视频到视频网站技术栈 Python PyQT undetected_chromedriver

西门子S7-1200双套三坐标6轴联动控制系统的设计与实现: 内容概要：本文详细介绍了西门子S7-1200双套三坐标6轴联动控制系统的开发与调试经验。主要内容涵盖双PLC通信机制、轴控制逻辑、安全联锁设计以及触摸屏程序绑定等方面。文中通过具体代码示例展示了如何利用SCL语言实现高效稳定的多轴联动控制，并分享了实际项目中的最佳实践和技术难点解决方案。此外，还讨论了程序结构优化、报警代码设计、数据块管理等关键环节，强调了模块化设计思想的应用及其带来的效率提升。适合人群：从事工业自动化领域的工程师，尤其是熟悉西门子PLC编程的专业人士。使用场景及目标：适用于需要进行复杂运动控制的自动化生产线，如汽车制造、电子装配等行业。主要目标是提高生产效率，确保设备运行的安全性和稳定性。其他说明：文中提到的许多技术和方法不仅限于特定型号的PLC，对于其他品牌的控制器也有一定的借鉴意义。同时，提供的代码片段可以直接应用于类似项目中，帮助开发者快速搭建可靠的控制系统。

NFC Tools Pro: NFC Tools是一个应用程序，允许你在你的 NFC 标签和其他 RFID 兼容芯片上读取或写入或编程代码任务。NFC Tools PRO版本包括很多其他的附加功能，比如配置文件管理等。保存你的NFC标签或任务的配置文件，以便你以后重新使用它们。导出和导入很容易。NFC Tools PRO官方版允许你直接从现有的 NFC 标签导入你的记录或任务。你可以很快编辑你的标签。此外还可以直接运行你的任务配置文件，不需要NFC 标签。

protobuf-6.30.1-py3-none-any.whl: 该资源为protobuf-6.30.1-py3-none-any.whl，欢迎下载使用哦！

FLAC3D中壳单元与衬砌单元内力提取及处理技巧: 内容概要：本文详细介绍了如何在FLAC3D中提取壳单元和衬砌单元的关键内力数据，如弯矩、轴力和剪力。针对壳单元，文中提供了具体的FISH命令和函数，展示了如何利用gp.extra属性提取弯矩，并强调了局部坐标系方向的重要性。对于衬砌单元，则介绍了专门的命令和注意事项，如使用liner组件提取轴力和剪力，以及如何处理弯矩数据。此外，还分享了一些实用的经验和技巧，如批量数据处理、单位换算、内力符号规则等。最后，提到了使用Python进行后处理的方法，将提取的数据转化为更直观的形式，便于进一步分析。适合人群：从事岩土工程、隧道工程及相关领域的工程师和技术人员，尤其是对FLAC3D有一定基础的用户。使用场景及目标：帮助用户掌握FLAC3D中壳单元和衬砌单元内力提取的具体方法，提高工作效率，确保数据分析的准确性。适用于需要进行结构内力分析、支护设计优化等项目的工程师。其他说明：文章不仅提供了详细的命令和函数示例，还分享了许多实战经验和常见错误的规避方法，有助于初学者少走弯路。同时，强调了内力符号规则和单位换算的重要性，避免因疏忽导致的重大失误。

ST PMSM FOC电机控制资料包2.0：全面解析STM32电机控制核心技术与实战技巧: 内容概要：本文详细介绍了ST公司发布的HL07:ST PMSM FOC电机控制资料包2.0的内容及其应用。资料包涵盖了ST芯片电机控制的全源代码、详细文档、多个工程源码、stm32库培训资料及例程源码。文中通过具体的代码示例，如GPIO初始化、PWM配置、ADC采样、Clarke变换、PID调节器、SVPWM生成等，深入剖析了电机控制的关键技术和优化技巧。此外，还揭示了一些隐藏的技术细节和调试技巧，如硬件同步、动态调整PID参数、电机参数自识别等。适合人群：电机控制工程师、嵌入式开发人员、尤其是对STM32和FOC算法感兴趣的开发者。使用场景及目标：帮助读者深入了解ST芯片电机控制的具体实现，掌握从硬件配置到算法优化的全过程，提高实际项目的开发效率和质量。适用于需要进行电机控制系统设计、调试和优化的工程项目。其他说明：资料包中的代码和文档非常实用，提供了丰富的实战经验和优化建议，尤其适合初学者和有一定基础的研发人员。同时，文中提到的一些特殊技巧和注意事项有助于避免常见的开发陷阱，提升系统的稳定性和性能。

人工智能2025年AI领袖与技术发展趋势：多模态AI、量子计算及行业应用展望: 内容概要：文章探讨了2025年AI技术发展趋势及潜在的GPT级技术突破。首先回顾了GPT系列模型的发展历程及其对自然语言处理领域的深远影响。接着，通过介绍Geoffrey Hinton、李飞飞和张晨等AI领袖的观点，阐述了AI技术在实际应用场景中的挑战与机遇。文中详细描述了AI大模型的演进，包括多模态技术的发展、轻量化趋势以及可控性和可解释性的提升。此外，还介绍了AI计算力的革命性升级，如量子计算、云计算+AI和边缘AI的发展。最后，文章分析了AI在医疗、金融、教育、自动驾驶等行业的落地应用，并指出了面临的挑战与机遇，展望了未来的技术和社会影响。适合人群：对AI技术感兴趣的从业者、研究人员、企业家及政策制定者。使用场景及目标：①了解AI技术的最新进展和未来趋势；②探索AI技术在各行业的应用前景；③评估AI技术带来的挑战与机遇，为相关决策提供参考。阅读建议：本文内容涵盖广泛，既有技术细节又有宏观展望，建议读者结合自身背景选择感兴趣的部分深入阅读，重点关注与自身行业或研究方向相关的章节。

基于樽海鞘算法优化的极限学习机回归预测及其与BP、GRNN、ELM的性能对比研究: 内容概要：本文详细探讨了基于樽海鞘算法（SSA）优化的极限学习机（ELM）在回归预测任务中的应用，并与传统的BP神经网络、广义回归神经网络（GRNN）以及未优化的ELM进行了性能对比。首先介绍了ELM的基本原理，即通过随机生成输入层与隐藏层之间的连接权重及阈值，仅需计算输出权重即可快速完成训练。接着阐述了SSA的工作机制，利用樽海鞘群体觅食行为优化ELM的输入权重和隐藏层阈值，从而提高模型性能。随后分别给出了BP、GRNN、ELM和SSA-ELM的具体实现代码，并通过波士顿房价数据集和其他工业数据集验证了各模型的表现。结果显示，SSA-ELM在预测精度方面显著优于其他三种方法，尽管其训练时间较长，但在实际应用中仍具有明显优势。适合人群：对机器学习尤其是回归预测感兴趣的科研人员和技术开发者，特别是那些希望深入了解ELM及其优化方法的人。使用场景及目标：适用于需要高效、高精度回归预测的应用场景，如金融建模、工业数据分析等。主要目标是提供一种更为有效的回归预测解决方案，尤其是在处理大规模数据集时能够保持较高的预测精度。其他说明：文中提供了详细的代码示例和性能对比图表，帮助读者更好地理解和复现实验结果。同时提醒使用者注意SSA参数的选择对模型性能的影响，建议进行参数敏感性分析以获得最佳效果。

工业自动化中汇川PLC与基恩士PLC基于EIP通讯的联机实现及应用: 内容概要：本文详细介绍了汇川PLC与基恩士PLC通过Ethernet/IP (EIP) 协议实现联机的方法及其应用场景。首先，文章解释了硬件配置，包括基恩士KV-7300 CPU搭配KV-EP21v以太网通信模块以及汇川AM-400系列PLC的网口连接。接下来，分别阐述了基恩士和汇川PLC的程序框架，涵盖初始化EIP通讯模块、设置IP地址、建立连接、数据映射及心跳检测机制等关键技术点。此外，文中提供了具体的代码示例和调试建议，如使用Wireshark抓包工具排查问题，并强调了数据同步、字节序转换、超时处理等方面需要注意的地方。最后，分享了一些实践经验，例如确保正确的IP地址分配、合理的缓冲区大小规划、良好的接地措施等。适合人群：从事工业自动化领域的工程师和技术人员，尤其是对PLC编程有一定基础并希望深入了解不同品牌PLC间通讯机制的专业人士。使用场景及目标：适用于需要将不同品牌PLC集成到同一个控制系统中的工业项目，旨在提高系统的灵活性和互操作性。通过掌握本文介绍的技术要点，可以有效减少因PLC品牌差异带来的兼容性和稳定性问题。其他说明：文中不仅提供了理论指导，还结合实际案例进行了深入浅出的讲解，帮助读者更好地理解和应用相关技术。同时，针对可能出现的问题给出了预防和解决方案，使读者能够在实践中少走弯路。

基于STM32F4的VESC非线性磁链观测器移植与优化: 内容概要：本文详细记录了作者将VESC项目的非线性磁链观测器移植到STM32F4开发板的过程。首先介绍了FOC技术和VESC源码的重要性和特点，然后重点阐述了非线性磁链观测器的实现方法及其核心代码。接着讨论了移植过程中遇到的技术难题，如实时性、稳定性、中断处理、电流采样等问题，并分享了解决这些问题的具体措施。最后展示了测试结果，证明了移植的成功以及观测器的良好性能。适合人群：具有一定嵌入式开发经验的研发人员，特别是从事电机控制领域的工程师和技术爱好者。使用场景及目标：适用于希望深入理解VESC源码和非线性磁链观测器的工作机制，掌握STM32F4平台上FOC算法实现的人群。目标是在实际项目中应用这些技术，提高电机控制系统的性能。其他说明：文中提供了大量实用的代码片段和调试技巧，帮助读者更好地理解和解决问题。此外，作者还分享了一些个人经验和心得，增加了文章的趣味性和实用性。

Quectel-LTE&5G-Windows-USB-Driver-V2.2.6-beta-20201230: 移远EC20 Windows驱动操作系统 - 桌面系统 - 移远EC20 Windows驱动

检证资料jianzhen.ppt: 检证资料jianzhen.ppt

### 【嵌入式开发】基于Qt的ATK-DLRK3568实战指南：从入门到项目实战题：嵌: 内容概要：本文档《ATK-DLRK3568嵌入式Qt开发实战V1.2》是正点原子出品的一份面向初学者的嵌入式Qt开发指南，主要内容涵盖嵌入式Linux环境下Qt的安装配置、C++基础、Qt基础、多线程编程、网络编程、多媒体开发、数据库操作以及项目实战案例。文档从最简单的“Hello World”程序开始，逐步引导读者熟悉Qt开发环境的搭建、常用控件的使用、信号与槽机制、UI设计、数据处理等关键技术点。此外，文档还提供了详细的项目实战案例，如车牌识别系统的开发，帮助读者将理论知识应用于实际项目中。适合人群：具备一定Linux和C++基础，希望快速入门嵌入式Qt开发的初学者或有一定开发经验的研发人员。使用场景及目标： 1. **环境搭建**：学习如何在Ubuntu环境下搭建Qt开发环境，包括安装必要的工具和库。 2. **基础知识**：掌握C++面向对象编程、Qt基础控件的使用、信号与槽机制等核心概念。 3. **高级功能**：理解多线程编程、网络通信、多媒体处理、数据库操作等高级功能的实现方法。 4. **项目实战**：通过具体的项目案例（如车牌识别系统），巩固

tcl-tclxml-devel-3.2-26.el8.x64-86.rpm.tar.gz: 1、文件说明： Centos8操作系统tcl-tclxml-devel-3.2-26.el8.rpm以及相关依赖，全打包为一个tar.gz压缩包 2、安装指令： #Step1、解压 tar -zxvf tcl-tclxml-devel-3.2-26.el8.tar.gz #Step2、进入解压后的目录，执行安装 sudo rpm -ivh *.rpm

C盘清理bat脚本自动清理C盘垃圾文件: C盘清理bat脚本自动清理C盘垃圾文件

桶排.txt: 桶排

基于混沌系统的图像加密算法：循环移位扰乱与水平垂直扩散的应用及性能评估: 内容概要：本文详细介绍了利用混沌系统进行图像加密的方法，重点探讨了Logistic映射生成混沌序列用于图像加密的具体实现。首先，通过生成混沌序列并对其进行预热处理，确保序列的随机性和稳定性。然后，采用循环移位扰乱方法对图像像素进行重新排列，使图像像素位置发生改变。接着，通过水平和垂直扩散步骤进一步打乱像素之间的关联性，增强了加密效果。文中还展示了如何通过直方图、信息熵和相关系数等指标评估加密效果，验证了该方法的有效性。适合人群：对图像加密技术和混沌系统感兴趣的科研人员、信息安全领域的开发者和技术爱好者。使用场景及目标：适用于研究和开发高效的图像加密算法，特别是在需要高安全性的应用场景中，如军事通信、隐私保护等领域。目标是提供一种基于混沌系统的高效、安全的图像加密解决方案。其他说明：文中提供了详细的Python代码实现，帮助读者更好地理解和实践该加密方法。同时，强调了在实际应用中需要注意的一些关键点，如参数选择和优化，以确保最佳的加密效果。

基于EEMD奇异值熵的滚动轴承故障诊断方法研究: 基于EEMD奇异值熵的滚动轴承故障诊断方法研究

【数据结构与算法】分块查找算法实现：有序分块数据快速检索方法研究: 内容概要：本文档介绍了分块查找的基本思想及其具体实现方法。分块查找的核心在于将一个数据集划分为若干个块，块内部元素可以无序排列，但块间元素必须保持有序（对于非递减序列，后一块的所有元素均大于前一块）。文档通过C#语言实现了分块查找算法，定义了IndexBlock结构体用于存储每个块的最大值、起始位置和结束位置，并展示了如何初始化分块以及执行具体的查找操作。最后通过一个简单的例子演示了分块查找的应用，当查找成功时返回元素在数组中的索引，否则返回-1表示查找失败。; 适合人群：计算机科学专业学生或有一定编程基础的技术人员。; 使用场景及目标：①理解分块查找算法的工作原理；②掌握利用C#实现分块查找的具体步骤；③学习如何根据实际需求选择合适的查找算法以提高效率。; 其他说明：此文档不仅提供了理论性的概念解释，还结合了实际代码示例帮助读者更好地理解分块查找算法，建议读者在阅读过程中尝试运行代码并理解每一部分的功能。

最近访客 更多访客>>