`
okwangxing
  • 浏览: 29044 次
  • 性别: Icon_minigender_1
  • 来自: 杭州
社区版块
存档分类
最新评论

Lucene之Helloworld

阅读更多
Lucene不是一个完整搜索引擎,不具备爬虫功能,管理界面之类的功能,可其部分之项目中实现了网站的搜索引擎,Nutch就是其中的一个,基于Lucene实现的搜索引擎应用.  .

本文记录下自己的学习点点滴滴,实现一个简单的程序,
Hello world 之实现文本搜索
这里没应用中文分词的东西,可以参照庖丁解牛的项目,svn中已经上传了代码,上面有针对lucene3.0的.感兴趣的可自行试验.
SVN地址
svn checkout http://paoding.googlecode.com/svn/trunk/ paoding-read-only

项目是利用Maven构建的,自从开始用Maven就是疯狂的爱上了她.个人推荐使用!
Maven pom.xml
<dependency>
	<groupId>log4j</groupId>
	<artifactId>log4j</artifactId>
	<version>1.2.15</version>
</dependency>
<dependency>
	<groupId>commons-logging</groupId>
	<artifactId>commons-logging</artifactId>
	<version>1.1.1</version>
</dependency>
<dependency>
	<groupId>org.apache.lucene</groupId>
	<artifactId>lucene-core</artifactId>
	<version>3.0.0</version>
</dependency>


对索引的提取,数据是自己造的.下面提供下载.
Index.java
import java.io.File;
import java.io.FileReader;
import org.apache.commons.logging.Log;
import org.apache.commons.logging.LogFactory;
import org.apache.lucene.analysis.Analyzer;
import org.apache.lucene.analysis.TokenStream;
import org.apache.lucene.analysis.standard.StandardAnalyzer;
import org.apache.lucene.analysis.tokenattributes.TermAttribute;
import org.apache.lucene.document.Document;
import org.apache.lucene.document.Field;
import org.apache.lucene.document.Field.Store;
import org.apache.lucene.index.IndexWriter;
import org.apache.lucene.index.IndexWriter.MaxFieldLength;
import org.apache.lucene.store.Directory;
import org.apache.lucene.store.FSDirectory;
import org.apache.lucene.util.Version;

/**
 * @author ruodao
 * @since 1.0 2010-2-23 下午09:39:10
 */
public class Index {
	public static void main(String[] args) throws Exception {
		String indexDir = "E:\\Temp\\index";
		String dataDir = "E:\\Temp\\data";

		long start = System.currentTimeMillis();
		Index indexer = new Index(indexDir);
		int numIndex = indexer.index(dataDir);

		indexer.close();

		long end = System.currentTimeMillis();

		System.out.println("Indexing " + numIndex + " files tooks "
				+ (end - start) + " millisenconds");
	}

	private IndexWriter writer;
	private Analyzer analyzer;
	
	private static final Log logger = LogFactory.getLog(Index.class);

	public Index(String indexDir) throws Exception {
		Directory dir = FSDirectory.open(new File(indexDir));
		analyzer = new StandardAnalyzer(Version.LUCENE_CURRENT);
		writer = new IndexWriter(dir, analyzer, MaxFieldLength.UNLIMITED);
	}

	public void close() throws Exception {
		writer.close();
	}

	public int index(String dataDir) throws Exception {
		File[] files = new File(dataDir).listFiles();
		for (File f : files) {
			if (!f.isDirectory() && !f.isHidden() && f.exists() && f.canRead()
					&& acceptFile(f)) {
				indexFile(f);
			}
		}
		return writer.numDocs();
	}

	protected boolean acceptFile(File f) {
		return f.getName().endsWith(".txt");
	}

	protected Document getDocument(File f) throws Exception {
		Document doc = new Document();
		doc.add(new Field("contents", new FileReader(f)));
		doc.add(new Field("filename", f.getCanonicalPath(), Store.YES,
				org.apache.lucene.document.Field.Index.NOT_ANALYZED));
		return doc;
	}

	private void indexFile(File f) throws Exception {
		System.out.println("Index " + f.getCanonicalPath());
		
		Document doc = getDocument(f);
		if (doc != null) {
			writer.addDocument(doc);
		}
		
		
		//查看分词情况  可选代码
		TokenStream ts = analyzer.tokenStream("contents", new FileReader(doc
				.get("filename")));
		ts.addAttribute(TermAttribute.class);

		while (ts.incrementToken()) {
			TermAttribute ta = ts.getAttribute(TermAttribute.class);
			logger.debug("{" + ta.term() + "}");
		}
	}
}


数据准备好了,也该提供给别人使用吧,一个简单的搜索.
Searcher.java
import java.io.File;
import org.apache.lucene.analysis.Analyzer;
import org.apache.lucene.analysis.standard.StandardAnalyzer;
import org.apache.lucene.document.Document;
import org.apache.lucene.queryParser.QueryParser;
import org.apache.lucene.search.IndexSearcher;
import org.apache.lucene.search.Query;
import org.apache.lucene.search.ScoreDoc;
import org.apache.lucene.search.TopDocs;
import org.apache.lucene.store.Directory;
import org.apache.lucene.store.FSDirectory;
import org.apache.lucene.util.Version;

/**
 * @author ruodao
 * @since 1.0 2010-2-23 下午10:19:06
 */
public class Searcher {
	public static void main(String[] args) throws Exception {
		String indexDir = "E:\\Temp\\index";
		String q = "中";

		searc(indexDir, q);
	}

	private static void searc(String indexDir, String q) throws Exception {
		Directory dir = FSDirectory.open(new File(indexDir), null);
		Analyzer analyzer = new StandardAnalyzer(Version.LUCENE_CURRENT);
		IndexSearcher is = new IndexSearcher(dir);
		QueryParser parser = new QueryParser(Version.LUCENE_CURRENT,
				"contents", analyzer);
		Query query = parser.parse(q);
		long start = System.currentTimeMillis();

		TopDocs hits = is.search(query, 10);

		long end = System.currentTimeMillis();

		System.err.println("Found " + hits.totalHits + " Document(s) (in )"
				+ (end - start) + "milliseconds) that matched query '" + q
				+ "':");
		for (int j = 0; j < hits.scoreDocs.length; j++) {
			ScoreDoc scoreDoc = hits.scoreDocs[j];
			Document doc = is.doc(scoreDoc.doc);
			System.out.println(doc.get("filename"));
		}
		is.close();
	}
}

一个简单而完整的程序已经完成了.可以实验实验.

--EOF--
分享到:
评论
3 楼 java-xb 2012-10-19  
夜神月 写道
按照楼主的文章,建立项目,将代码跑起来,建立索引,而后查询,总是查找为0,求答案

中文的检索内容好像不应 试试英文的
2 楼 夜神月 2011-08-12  
按照楼主的文章,建立项目,将代码跑起来,建立索引,而后查询,总是查找为0,求答案
1 楼 ladybird2010 2010-02-25  
求Lucene结合Hibernate的配置实例 急。。
您若有Lucene的例子工程,帮忙发一个好吗?最好是可以分词。
Email: gao.guangpei@zte.com.cn 或者ggp123@126.com
非常感谢你!

相关推荐

    lunece入门之HelloWorld

    《Lucene入门之HelloWorld》 Lucene是一个高性能、全文本搜索库,由Apache软件基金会开发并维护。它提供了一个简单但功能强大的API,用于在各种应用中实现文本的索引和搜索。这篇博文将带你走进Lucene的世界,通过...

    Lucene常用的Demo

    本篇文章将深入探讨Lucene的几个常见示例,包括`LuceneDemo`、`LuceneZJ`、`Lucene_HelloWorld`,帮助初学者快速理解Lucene的基本操作。 1. **Lucene_HelloWorld** 这个示例是入门Lucene的首选,它展示了如何创建...

    lucene:lucene构建索引,从HelloWorld到项目具体使用

    lucene构建索引,从HelloWorld到项目具体使用 ====================项目一:=================================== qianjun.lucene.first ====================项目二:=================================== qianjun....

    Lucene-Demo.rar Lucene分词的demo

    例如,一个英文分词器可能会将句子"Hello World"拆分为"Hello"和"World"两个术语。 在导入这个Demo项目后,开发者可以查看和学习如何实例化分词器、创建索引以及执行搜索。分词器的配置是灵活的,可以根据需求选择...

    lucence入门HelloWorld

    **Lucene 入门教程** Lucene 是一个高性能、全文本搜索库,由Apache软件基金会开发,被广泛应用于各种搜索引擎的构建。它提供了一个高级的、可扩展的、完全免费的搜索程序开发框架,使开发者能够轻松地在自己的应用...

    使用Lucene.net进行全文搜索

    例如,英文Analyzer可能会将“hello world”拆分为“hello”和“world”。 - **创建Document**: 模拟数据库中的记录,Document包含字段(Field),如标题、正文等,每个字段可以指定是否被索引和存储。 - **添加...

    全文搜索Lucene&ElasticSearch-新版.doc

    入门Lucene时,可以创建一个简单的HelloWorld程序,使用Lucene提供的API如IndexWriter进行索引的创建和维护,以及IndexSearcher进行索引的搜索。在Java环境中,需要引入相关的Lucene库,如lucene-analyzers-common、...

    lucene(HelloWord)

    《Lucene:初识搜索引擎库的“Hello World”》 Lucene,作为Apache软件基金会的顶级项目,是一款高性能、全文本检索引擎库,被广泛应用于各类搜索引擎和信息检索系统中。它提供了完整的搜索功能,包括索引、查询、...

    Annotated Lucene 中文版 Lucene源码剖析

    - **Hello World!** - 创建一个简单的索引,并进行基本的查询操作,这是入门Lucene的第一步。 - **Lucene Roadmap**: - 了解Lucene的发展历程及其未来规划对于开发者来说非常重要。 #### 索引文件结构 - **...

    elk入门教程,程序员的helloworld

    Elasticsearch(简称ES)是一款强大的开源搜索引擎,它基于Apache Lucene构建,提供了一种分布式、实时、高可用的文件存储和搜索能力。其核心特性包括: 1. **分布式实时文件存储**:Elasticsearch能够分布式地存储...

    lucene-入门

    要使用 Lucene 进行一个简单的搜索应用(Hello World),首先需要创建一个索引库,并将一些文档索引到这个库中。然后,可以通过构建查询来搜索这个索引库中的内容。具体的步骤如下: 1. **创建一个 IndexWriter ...

    lucene项目代码

    项目描述中的“Helloworld”通常代表入门级别的示例,可能包含以下步骤: 1. **创建索引**:首先,你需要创建一个索引,将数据(例如,文件内容)转换为Lucene可以理解和查询的格式。这涉及到读取文件,创建文档...

    Lucene演示

    这个"Lucene演示"可能是为了帮助初学者理解和使用Lucene进行基本操作的一个实例,例如"HelloWorld"式的简单演示。 在开始深入Lucene之前,我们先理解一下全文搜索引擎的基本概念。全文搜索引擎不同于传统的数据库...

    lucene学习,lucene对txt,pdf,html格式的学习

    在给定的代码中,`Index`方法创建了一个包含100条记录的索引,每条记录的`name`字段从`name1`到`name100`,`value`字段都为`"Hello, World!"`。然后,`Search`方法使用`QueryParser`解析查询`name*`,并打印出所有...

    lucene相关文档

    - **查询词**:单个词或词组,词组用双引号包围,如 "hello world"。 - **查询域**:指定查询的字段,如 `title:"Do it right"`。 - **通配符查询**:使用 `?` 表示一个任意字符,`*` 表示多个任意字符,但它们不...

    Struts Web设计与开发大全

    17章:Hello World类和Ant脚本及基本Web应用结构和Ant脚; 18章:Hello World类和测试类以及Struts测试工程; 19章:Struts与Hibernate结合应用; 20章:lucene1全文检索应用,直接复制到tomcat的webapps目录下...

    ES搜索快速入门

    CreateIndexResponse response = client.admin().indices().create(Requests.createIndexRequest("helloworld")).actionGet(); System.out.println("索引创建结果:" + response.isAcknowledged()); } catch ...

    lucense demo

    要搭建一个Lucene 4.0的HelloWorld Demo,我们需要以下步骤: 1. 引入库:首先,在项目中引入Lucene和IK分词器的依赖。这通常通过Maven或Gradle来完成,添加相应的依赖配置。 2. 创建索引:这是Lucene的第一步,...

    基于SSM框架构建积分系统和基本商品检索系统源码.zip

    【资源说明】 1、该资源包括项目的全部源码,下载可以直接使用!...#### (三)[ Redis系列(一)--安装、helloworld以及读懂配置文件](http://blog.csdn.net/jack__frost/article/details/67633975

Global site tag (gtag.js) - Google Analytics