Lucene 3.0.2 使用入门

hanyuanbo

浏览: 187904 次
性别:
来自: 深圳

最近访客更多访客>>

DamonDomino

abcd2010

den253176

cj19920801

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

网络信息体系结构

lucene Apache 算法 Google CGI

最近在做一个大作业，主要是用到Heritrix 1.14.4 + Lucene 3.0.2
主要是兴趣所在，所以之前对Heritrix进行了一些些皮毛的学习，这次的作业要更实质些，对用Heritrix爬下来的那1.5G文件进行索引的建立和搜索的实现。还有自己写下新的排序算法，提高搜索的质量和结果。

其他的先不说，先从Lucene的入门级别开始。
3.0版本是重大的版本，改动很大。在API上做了很多的调整，已经删除了很多之前废弃的方法以及类，并支持了很多Java5 的新特性：包括泛型、可变参数、枚举和autoboxing等。因此，此版本和2.x版本不能兼容，如要使用3.0版本，最好是在新项目中去使用，而不是去升级2.x或之前的版本！

1. Lucene的配置安装
Lucene官方网站： http://lucene.apache.org/
Lucene的文档链接： http://lucene.apache.org/java/3_0_1/
Lucene的Jar文件下载地址： http://www.apache.org/dyn/closer.cgi/lucene/java/
其他帖子：
1 http://www.360doc.com/content/10/0818/14/87000_46942239.shtml
2 http://forfuture1978.iteye.com/category/89151
3 http://code.google.com/p/ik-analyzer/
4
Lucene的使用：使用起来很简单，将core 和 demos两个jar文件加到自己的项目中即可使用Lucene强大的功能。

2. Lucene中包的分析
Lucene 软件包的发布形式是一个 JAR 文件，其中core部分是比较重要的。

Package: org.apache.lucene.document	这个包提供了一些为封装要索引的文档所需要的类，比如 Document, Field。这样，每一个文档最终被封装成了一个 Document 对象。
Package: org.apache.lucene.analysis	这个包主要功能是对文档进行分词，因为文档在建立索引之前必须要进行分词，所以这个包的作用可以看成是为建立索引做准备工作。
Package: org.apache.lucene.index	这个包提供了一些类来协助创建索引以及对创建好的索引进行更新。这里面有两个基础的类：IndexWriter 和 IndexReader，其中 IndexWriter 是用来创建索引并添加文档到索引中的，IndexReader 是用来删除索引中的文档的。
Package: org.apache.lucene.search	这个包提供了对在建立好的索引上进行搜索所需要的类。比如 IndexSearcher 和 Hits, IndexSearcher 定义了在指定的索引上进行搜索的方法，Hits 用来保存搜索得到的结果。
Package: org.apache.lucene.util	这个包提供了一些常用的帮助类

3. 下面是使用Lucene 3.0.2对一个目录下的文档进行索引建立并进行搜索的一个实例，具体的使用介绍注释中已经很详细。

package com.eric.lucene;

import java.io.File;
import java.io.FileNotFoundException;
import java.io.FileReader;
import java.io.IOException;
import java.util.Date;

import org.apache.lucene.analysis.standard.StandardAnalyzer;
import org.apache.lucene.document.Document;
import org.apache.lucene.document.Field;
import org.apache.lucene.index.CorruptIndexException;
import org.apache.lucene.index.IndexWriter;
import org.apache.lucene.queryParser.ParseException;
import org.apache.lucene.queryParser.QueryParser;
import org.apache.lucene.search.IndexSearcher;
import org.apache.lucene.search.Query;
import org.apache.lucene.search.ScoreDoc;
import org.apache.lucene.search.TopScoreDocCollector;
import org.apache.lucene.store.FSDirectory;
import org.apache.lucene.store.LockObtainFailedException;
import org.apache.lucene.util.Version;

public class LuceneApp {
	private File baseDir;
	private File indexDir;

	public LuceneApp() {
		this.baseDir = new File("E:\\Study\\Lectuer\\lucene\\files_indexed");
		this.indexDir = new File("E:\\Study\\Lectuer\\lucene\\lucene_index");
		if (!this.baseDir.exists() || !this.indexDir.exists()) {
			System.err.println("The directory does not exist!!!!");
			return;
		}
	}

	public LuceneApp(String dir) {
		this.baseDir = new File(dir);
		this.indexDir = new File("E:\\Study\\Lectuer\\lucene\\lucene_index");
		if (!this.baseDir.exists() || !this.indexDir.exists()) {
			System.err.println("The directory or file you specified does not exist!!!!");
			return;
		}
	}

	public LuceneApp(String dir, String indexDir) {
		this.baseDir = new File(dir);
		this.indexDir = new File(indexDir);
		if (!this.baseDir.exists() || !this.indexDir.exists()) {
			System.err.println("The directory or file you specified does not exist!!!!");
			return;
		}
	}

	/**
	 * 索引文件是否已经建立.因为索引建立的过程是非常耗时的
	 * @return
	 */
	private boolean isIndexCreated(){
		String[] files = this.indexDir.list();
		if(files.length == 0){
			return false;
		}
		return true;
	}
	
	/**
	 * 对baseDir目录以及子目录下的文件创建索引
	 */
	public void createIndex() {
		if(!this.isIndexCreated()){
			try {
				IndexWriter writer = new IndexWriter(
						FSDirectory.open(this.indexDir), new StandardAnalyzer(
								Version.LUCENE_30), true, IndexWriter.MaxFieldLength.LIMITED);
				indexDirectory(writer, baseDir);
				writer.optimize();// 在建立索引之后调用此函数。引自API“It is recommended that this method be called upon completion of indexing.”
				writer.close();
			} catch (CorruptIndexException e) {
				e.printStackTrace();
			} catch (LockObtainFailedException e) {
				e.printStackTrace();
			} catch (IOException e) {
				e.printStackTrace();
			}
		}
	}

	/**
	 * 给一个指定的目录下的所有文件创建索引
	 * 
	 * @param writer
	 * @param dir
	 */
	private void indexDirectory(IndexWriter writer, File dir) {
		if (!dir.exists() || !dir.isDirectory()) {
			System.err.println("The dir does not exist or it is not a directory!!!!");
			return;
		}
		File[] files = dir.listFiles();
		for (int i = 0; i < files.length; i++) {
			File file = files[i];
			if (file.isDirectory()) {
				indexDirectory(writer, file);
			} else {
				indexFile(writer, file);
			}
		}
	}

	/**
	 * 用writer来对f进行索引的建立
	 * 
	 * @param writer
	 * @param file
	 */
	private void indexFile(IndexWriter writer, File file) {
		if (file.isHidden() || !file.exists() || !file.canRead()) {
			System.err.println("The file is hidden file, or does not exist, or can not be read!!!!");
			return;
		}

		try {
			Document doc = new Document();
			doc.add(new Field("contents", new FileReader(file)));//对整个文件内容建立索引
			doc.add(new Field("filename", file.getCanonicalPath(),
					Field.Store.YES, Field.Index.ANALYZED));//对文件名建立索引
			writer.addDocument(doc);//调用addDocument()方法，Lucene会建立doc的索引
		} catch (FileNotFoundException e) {
			e.printStackTrace();
		} catch (CorruptIndexException e) {
			e.printStackTrace();
		} catch (IOException e) {
			e.printStackTrace();
		}
	}

	/**
	 * 在之前建立过的索引中，对keyword进行搜索
	 * @param keyword
	 */
	public void search(String keyword) {
		try {
			IndexSearcher is = new IndexSearcher(FSDirectory.open(this.indexDir), true);
			QueryParser parser = new QueryParser(Version.LUCENE_30, "contents",	new StandardAnalyzer(Version.LUCENE_30));//对Document中的哪个Field进行QueryParser
			Query query = parser.parse(keyword);
			TopScoreDocCollector collector = TopScoreDocCollector.create(100, false);
			
			long start = new Date().getTime();
			is.search(query, collector);//IndexSearcher对Query进行索引，并将结果保存在TopScoreDocCollector中
			ScoreDoc[] hits = collector.topDocs().scoreDocs;

			System.out.println(hits.length);
			for (int i = 0; i < hits.length; i++) {
				Document doc = is.doc(hits[i].doc);
				System.out.println(doc.getField("filename") + "\t" + hits[i].toString());//得到doc中的filename的Field
			}
			long end = new Date().getTime();

			System.out.println("Found " + collector.getTotalHits()
					+ " document(s) (in " + (end - start)
					+ " milliseconds) that matched query '" + keyword + "'");
		} catch (CorruptIndexException e) {
			e.printStackTrace();
		} catch (IOException e) {
			e.printStackTrace();
		} catch (ParseException e) {
			e.printStackTrace();
		}
	}

	public static void main(String[] args) {
		LuceneApp lucene = new LuceneApp();
		lucene.createIndex();
		lucene.search("model");
	}
}

E:\Study\Lectuer\lucene\files_indexed\目录下的文件列表为：
内容都相同，为：

引用

1. Document-term incidence matrix
2. inverted index
输出： <Modified token, Document ID> 元组序列
Sort by terms(Core step)
合并一个文档中的多次出现，添加term的Frequency信息.
结果split 为一个Dictionary 文件和一个Postings 文件.
3. Bag of words model
Vector representation doesn’t consider the ordering of words in a document.John is quicker than Mary and Mary is quicker than John have the same vectors

Solution：
记录term的field property
记录term在docs中的position information
4. Query Processing
Document-at-a-time
Calculates complete scores for documents by processing all term lists, one document at a time
Term-at-a-time
Accumulates scores for documents by processing term lists one at a time
5. Scoring and Ranking(Beyond Boolean Search)
用户会期待结果按某种 order 返回，most likely to be useful 的文档在结果的前面

TF scoring(Term Frequecy)
problem
没有区分词序(Positional information index)
长文档具有优势(除以文档的总次数)
出现的重要程度其实与出现次数不成正比关系(对次数取对数,为了不让过高的频率而使得重要程度过高)
不同的词，其重要程度其实不一样(Discrimination of terms)

6.
7.
8.
9.
10.

运行结果如下：
12
stored,indexed,tokenized<filename:E:\Study\Lectuer\lucene\files_indexed\wbia.txt>   doc=0 score=0.05749733
stored,indexed,tokenized<filename:E:\Study\Lectuer\lucene\files_indexed\wbia1.txt>   doc=1 score=0.05749733
stored,indexed,tokenized<filename:E:\Study\Lectuer\lucene\files_indexed\wbia2.txt>   doc=2 score=0.05749733
stored,indexed,tokenized<filename:E:\Study\Lectuer\lucene\files_indexed\wbia3.txt>   doc=3 score=0.05749733
stored,indexed,tokenized<filename:E:\Study\Lectuer\lucene\files_indexed\wbia4.txt>   doc=4 score=0.05749733
stored,indexed,tokenized<filename:E:\Study\Lectuer\lucene\files_indexed\wbia5.txt>   doc=5 score=0.05749733
stored,indexed,tokenized<filename:E:\Study\Lectuer\lucene\files_indexed\wbia6.txt>   doc=6 score=0.05749733
stored,indexed,tokenized<filename:E:\Study\Lectuer\lucene\files_indexed\wbia7.txt>   doc=7 score=0.05749733
stored,indexed,tokenized<filename:E:\Study\Lectuer\lucene\files_indexed\wbia8.txt>   doc=8 score=0.05749733
stored,indexed,tokenized<filename:E:\Study\Lectuer\lucene\files_indexed\wbia9.txt>   doc=9 score=0.05749733
stored,indexed,tokenized<filename:E:\Study\Lectuer\lucene\files_indexed\wbia10.txt>   doc=10 score=0.05749733
stored,indexed,tokenized<filename:E:\Study\Lectuer\lucene\files_indexed\wbia11.txt>   doc=11 score=0.05749733
Found 12 document(s) (in 16 milliseconds) that matched query 'model'

4.
5.
6.
7.

查看图片附件

分享到：

Heritrix 抓取高级篇 | Swing -- 布局管理器

2010-11-15 20:15
浏览 2669
评论(1)
分类:互联网
查看更多

1 楼 springaop_springmvc 2015-08-12

apache lucene开源框架demo使用实例教程源代码下载:http://www.zuidaima.com/share/klucene-p1-s1.htm

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

Eclipse开发分布式商城系统+完整视频代码及文档: │ 05.svn的使用.avi │ 06.ssm框架整合思路.avi │ 07.ssm框架整合.avi │ 08.测试工程.avi │ 打开必读.txt │ 淘淘商城第一天笔记.docx │ ├─02.第二天 │ 07.商品类目选择完成.avi │ 01.课程计划.avi │ 02....

68个常用开发手册: Spring3.0.2-RELEASE-API.chm Struts2.chm struts2中文教程.chm struts2标签.chm tomcat5.5中文帮助文档.chm W3CSchool.chm w3school完整版.CHM WebGL自修教程.chm XML+Schema官方教程（9loong中文版）修正版2009.04...

各种开发手册大全: │ Spring3.0.2-RELEASE-API.chm │ Struts2.chm │ struts2中文教程.chm │ struts2标签.chm │ tomcat5.5中文帮助文档.chm │ W3CSchool .chm │ W3CSchool.chm │ w3school完整版.CHM │ WebGL自修教程.chm │ ...

Delphi 12.3控件之TraeSetup-stable-1.0.12120.exe: Delphi 12.3控件之TraeSetup-stable-1.0.12120.exe

基于GPRS，GPS的电动汽车远程监控系统的设计与实现.pdf: 基于GPRS，GPS的电动汽车远程监控系统的设计与实现.pdf

基于MATLAB/Simulink 2018a的单机无穷大系统暂态稳定性仿真与故障分析: 内容概要：本文详细介绍了如何利用MATLAB/Simulink 2018a进行单机无穷大系统的暂态稳定性仿真。主要内容包括搭建同步发电机模型、设置无穷大系统等效电源、配置故障模块及其控制信号、优化求解器设置以及绘制和分析转速波形和摇摆曲线。文中还提供了多个实用脚本，如故障类型切换、摇摆曲线计算和极限切除角的求解方法。此外，作者分享了一些实践经验，如避免常见错误和提高仿真效率的小技巧。适合人群：从事电力系统研究和仿真的工程师和技术人员，尤其是对MATLAB/Simulink有一定基础的用户。使用场景及目标：适用于需要进行电力系统暂态稳定性分析的研究项目或工程应用。主要目标是帮助用户掌握单机无穷大系统的建模和仿真方法，理解故障对系统稳定性的影响，并能够通过仿真结果评估系统的性能。其他说明：文中提到的一些具体操作和脚本代码对于初学者来说可能会有一定的难度，建议结合官方文档或其他教程一起学习。同时，部分技巧和经验来自于作者的实际操作，具有一定的实用性。

【KUKA 机器人资料】：KUKA机器人剑指未来——访库卡自动化设备(上海)有限公司销售部经理邹涛.pdf: KUKA机器人相关资料

基于DLR模型的PM10–能见度–湿度相关性研究.pdf: 基于DLR模型的PM10–能见度–湿度相关性研究.pdf

MATLAB/Simulink中基于电导增量法的光伏并网系统MPPT仿真及其环境适应性分析: 内容概要：本文详细介绍了如何使用MATLAB/Simulink进行光伏并网系统的最大功率点跟踪(MPPT)仿真，重点讨论了电导增量法的应用。首先阐述了电导增量法的基本原理，接着展示了如何在Simulink中构建光伏电池模型和MPPT控制系统，包括Boost升压电路的设计和PI控制参数的设定。随后，通过仿真分析了不同光照强度和温度条件对光伏系统性能的影响，验证了电导增量法的有效性，并提出了针对特定工况的优化措施。适合人群：从事光伏系统研究和技术开发的专业人士，尤其是那些希望通过仿真工具深入理解MPPT控制机制的人群。使用场景及目标：适用于需要评估和优化光伏并网系统性能的研发项目，旨在提高系统在各种环境条件下的最大功率点跟踪效率。其他说明：文中提供了详细的代码片段和仿真结果图表，帮助读者更好地理解和复现实验过程。此外，还提到了一些常见的仿真陷阱及解决方案，如变步长求解器的问题和PI参数整定技巧。

【KUKA 机器人坐标的建立】：mo2_base_en.ppt: KUKA机器人相关文档

风力发电领域双馈风力发电机（DFIG）Simulink模型的构建与电流电压波形分析: 内容概要：本文详细探讨了双馈风力发电机（DFIG）在Simulink环境下的建模方法及其在不同风速条件下的电流与电压波形特征。首先介绍了DFIG的基本原理，即定子直接接入电网，转子通过双向变流器连接电网的特点。接着阐述了Simulink模型的具体搭建步骤，包括风力机模型、传动系统模型、DFIG本体模型和变流器模型的建立。文中强调了变流器控制算法的重要性，特别是在应对风速变化时，通过实时调整转子侧的电压和电流，确保电流和电压波形的良好特性。此外，文章还讨论了模型中的关键技术和挑战，如转子电流环控制策略、低电压穿越性能、直流母线电压脉动等问题，并提供了具体的解决方案和技术细节。最终，通过对故障工况的仿真测试，验证了所建模型的有效性和优越性。适用人群：从事风力发电研究的技术人员、高校相关专业师生、对电力电子控制系统感兴趣的工程技术人员。使用场景及目标：适用于希望深入了解DFIG工作原理、掌握Simulink建模技能的研究人员；旨在帮助读者理解DFIG在不同风速条件下的动态响应机制，为优化风力发电系统的控制策略提供理论依据和技术支持。其他说明：文章不仅提供了详细的理论解释，还附有大量Matlab/Simulink代码片段，便于读者进行实践操作。同时，针对一些常见问题给出了实用的调试技巧，有助于提高仿真的准确性和可靠性。

linux之用户管理教程.md: linux之用户管理教程.md

三菱PLC与组态王构建3x3书架式堆垛立体库：IO分配、梯形图编程及组态画面设计: 内容概要：本文详细介绍了利用三菱PLC（特别是FX系列）和组态王软件构建3x3书架式堆垛式立体库的方法。首先阐述了IO分配的原则，明确了输入输出信号的功能，如仓位检测、堆垛机运动控制等。接着深入解析了梯形图编程的具体实现，包括基本的左右移动控制、复杂的自动寻址逻辑，以及确保安全性的限位保护措施。还展示了接线图和原理图的作用，强调了正确的电气连接方式。最后讲解了组态王的画面设计技巧，通过图形化界面实现对立体库的操作和监控。适用人群：从事自动化仓储系统设计、安装、调试的技术人员，尤其是熟悉三菱PLC和组态王的工程师。使用场景及目标：适用于需要提高仓库空间利用率的小型仓储环境，旨在帮助技术人员掌握从硬件选型、电路设计到软件编程的全流程技能，最终实现高效稳定的自动化仓储管理。其他说明：文中提供了多个实用的编程技巧和注意事项，如避免常见错误、优化性能参数等，有助于减少实际应用中的故障率并提升系统的可靠性。

基于STM32的循迹避障小车仿真20250426（带讲解视频）: 基于STM32的循迹避障小车主控：STM32 显示：OLED 电源模块舵机云台超声波测距红外循迹模块（3个，左中右）蓝牙模块按键（6个，模式和手动控制小车状态） TB6612驱动的双电机功能：该小车共有3种模式：自动模式：根据红外循迹和超声波测距模块决定小车的状态手动模式：根据按键的状态来决定小车的状态蓝牙模式：根据蓝牙指令来决定小车的状态自动模式：自动模式下，检测距离低于5cm小车后退未检测到任何黑线，小车停止检测到左边或左边+中间黑线，小车左转检测到右边或右边+中间黑线，小车右转检测到中边或左边+中间+右边黑线，小车前进手动模式：根据按键的状态来决定小车的状态蓝牙模式： //需切换为蓝牙模式才能指令控制 *StatusX X取值为0-4 0：小车停止 1：小车前进 2：小车后退 3：小车左转 4：小车右转

海西蒙古族藏族自治州乡镇边界，矢量边界，shp格式: 矢量边界，行政区域边界，精确到乡镇街道，可直接导入arcgis使用

基于IEEE33节点的主动配电网优化：含风光储柴燃多源调度模型的经济运行研究: 内容概要：本文探讨了基于IEEE33节点的主动配电网优化方法，旨在通过合理的调度模型降低配电网的总运行成本。文中详细介绍了模型的构建，包括风光发电、储能装置、柴油发电机和燃气轮机等多种分布式电源的集成。为了实现这一目标，作者提出了具体的约束条件，如储能充放电功率限制和潮流约束，并采用了粒子群算法进行求解。通过一系列实验验证，最终得到了优化的分布式电源运行计划，显著降低了总成本并提高了系统的稳定性。适合人群：从事电力系统优化、智能电网研究的专业人士和技术爱好者。使用场景及目标：适用于需要优化配电网运行成本的研究机构和企业。主要目标是在满足各种约束条件下，通过合理的调度策略使配电网更加经济高效地运行。其他说明：文章不仅提供了详细的理论推导和算法实现，还分享了许多实用的经验技巧，如储能充放电策略、粒子群算法参数选择等。此外，通过具体案例展示了不同电源之间的协同作用及其经济效益。

【KUKA 机器人资料】：KUKA 机器人初级培训教材.pdf: KUKA机器人相关文档

基于MATLAB的CSP电站与ORC综合能源系统优化建模及应用: 内容概要：本文详细介绍了将光热电站(CSP)和有机朗肯循环(ORC)集成到综合能源系统中的优化建模方法。主要内容涵盖系统的目标函数设计、关键设备的约束条件（如CSP储热罐、ORC热电耦合）、以及具体实现的技术细节。文中通过MATLAB和YALMIP工具进行建模，采用CPLEX求解器解决混合整数规划问题，确保系统在经济性和环境效益方面的最优表现。此外，文章还讨论了碳排放惩罚机制、风光弃能处理等实际应用场景中的挑战及其解决方案。适合人群：从事综合能源系统研究的专业人士，尤其是对光热发电、余热利用感兴趣的科研工作者和技术开发者。使用场景及目标：适用于需要评估和优化包含多种能源形式（如光伏、风电、燃气锅炉等）在内的复杂能源系统的项目。目标是在满足供电供热需求的同时，最小化运行成本并减少碳排放。其他说明：文中提供了大量具体的MATLAB代码片段作为实例，帮助读者更好地理解和复现所提出的优化模型。对于初学者而言，建议从简单的确定性模型入手，逐渐过渡到更复杂的随机规划和鲁棒优化。

网站设计与管理作业一.ppt: 网站设计与管理作业一.ppt

基于MATLAB的双闭环Buck电路仿真模型设计与优化: 内容概要：本文详细介绍了如何使用MATLAB搭建双闭环Buck电路的仿真模型。首先定义了主电路的关键参数，如输入电压、电感、电容等，并解释了这些参数的选择依据。接着分别对电压外环和电流内环进行了PI控制器的设计，强调了电流环响应速度需要显著高于电压环以确保系统的稳定性。文中还讨论了仿真过程中的一些关键技术细节，如PWM死区时间的设置、低通滤波器的应用以及参数调整的方法。通过对比单闭环和双闭环系统的性能，展示了双闭环方案在应对负载突变时的优势。最后分享了一些调试经验和常见问题的解决方案。适合人群：从事电力电子、电源设计领域的工程师和技术人员，尤其是有一定MATLAB基础的读者。使用场景及目标：适用于需要进行电源管理芯片设计验证、电源系统性能评估的研究人员和工程师。主要目标是提高电源系统的稳定性和响应速度，特别是在负载变化剧烈的情况下。其他说明：文章不仅提供了详细的理论分析，还包括了大量的代码片段和具体的调试步骤，帮助读者更好地理解和应用所学知识。同时提醒读者注意仿真与实际情况之间的差异，鼓励在实践中不断探索和改进。

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论