`
king_c
  • 浏览: 222751 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论

基于 lucene3.1 开发demo.

阅读更多
package com.search.crawler;

import java.io.File;
import java.io.FileInputStream;
import java.io.FileNotFoundException;
import java.io.FileReader;
import java.io.IOException;
import java.util.Date;

import org.apache.lucene.analysis.Analyzer;
import org.apache.lucene.analysis.standard.StandardAnalyzer;
import org.apache.lucene.document.Document;
import org.apache.lucene.document.Field;
import org.apache.lucene.index.IndexWriter;
import org.apache.lucene.queryParser.ParseException;
import org.apache.lucene.queryParser.QueryParser;
import org.apache.lucene.search.IndexSearcher;
import org.apache.lucene.search.Query;
import org.apache.lucene.search.ScoreDoc;
import org.apache.lucene.search.TopDocs;
import org.apache.lucene.store.Directory;
import org.apache.lucene.store.FSDirectory;
import org.apache.lucene.util.Version;

public class IndexProcess {

	private static String indexPath = "src/indexFiles"; //生成索引存放目录

	public static void createIndex(String docsPath) {

		File docDir = new File(docsPath);
		if (!docDir.exists() || !docDir.canRead()) {
			System.out	.println("Document directory '"
							+ docDir.getAbsolutePath()
							+ "' does not exist or is not readable, please check the path");
			System.exit(1);
		}

		System.out.println("Indexing to directory '" + indexPath + "'...");
		Directory dir = null;
		try {
			dir = FSDirectory.open(new File(indexPath));

			Analyzer analyzer = new StandardAnalyzer(Version.LUCENE_31);
			IndexWriter writer = new IndexWriter(dir, analyzer, true, new IndexWriter.MaxFieldLength(25000));
			
			indexDocs(writer, docDir);
			writer.close();
			dir.close();

		} catch (IOException e) {
			// TODO Auto-generated catch block
			e.printStackTrace();
		}

	}

	static void indexDocs(IndexWriter writer, File file) throws IOException {
		// do not try to index files that cannot be read
		if (file.canRead()) {
			if (file.isDirectory()) {
				File[] files = file.listFiles();
				if (files != null) {
					for (int i = 0; i < files.length; i++) {
						indexDocs(writer, files[i]);
					}
				}
			} else {

				FileInputStream fis = null;
				try {
					fis = new FileInputStream(file);
				} catch (FileNotFoundException fnfe) {
					fnfe.printStackTrace();
				}
				try {
					// make a new, empty document
					Document doc = new Document();
					
					//create index of path
					doc.add( new Field("path", file.getPath(),	Field.Store.YES, Field.Index.ANALYZED));
					
					//create index of content
					doc.add(new Field("content", new FileReader(file))); 
					
					writer.addDocument(doc);
					
				} finally {
					fis.close();
				}
			}
		}
	}

	static void search(String key ,String value) {
		
		Date startTime = new Date(); //
		Directory dir = null;
		try {
			dir = FSDirectory.open(new File(indexPath));
			IndexSearcher searcher = new IndexSearcher(dir,true);
			QueryParser par = new QueryParser(Version.LUCENE_31,key,new StandardAnalyzer(Version.LUCENE_31));
			Query query = null;
			try {
				query = par.parse(value);
			} catch (ParseException e) {
				// TODO Auto-generated catch block
				e.printStackTrace();
			}
//			System.out.println(query.toString());
			TopDocs topDocs = searcher.search(query, null, 1000);
			ScoreDoc[] scores = topDocs.scoreDocs;
			for (ScoreDoc soc : scores) {
				System.out.println(soc+"\t"+searcher.doc(soc.doc).get("path") );
			}

		} catch (IOException e) {
			// TODO Auto-generated catch block
			e.printStackTrace();
		}
		Date endTime = new Date();
		System.out.println("总共花了" + (endTime.getTime() - startTime.getTime())+ "毫秒时间");

	}

	/**
	 * @param args
	 */
	public static void main(String[] args) {
		// TODO Auto-generated method stub
 		IndexProcess.createIndex("src/index");
		System.out.println("search starting :");
		IndexProcess.search("content","revision");
	}

}

 

分享到:
评论

相关推荐

    Lucene.Net.Analysis.Cn.dll

    在C#开发中,搜索引擎的构建是不可或缺的一部分,而Lucene.Net作为一个强大的全文搜索引擎库,为开发者提供了丰富的功能。本文将重点探讨Lucene.Net.Analysis.Cn.dll和Lucene.Net.dll这两个关键组件在C#环境下的作用...

    Lucene3.4开发入门.pdf

    Lucene3.4开发入门.pdf

    Lucene.Net.DemoLib.dll

    本文将深入探讨Lucene.Net.DemoLib.dll,这是一个基于Lucene.NET的示例库,旨在帮助开发者更好地理解和应用Lucene.NET的功能。 首先,我们来了解Lucene.NET的基础。Lucene.NET是一个实现了高级全文搜索功能的库,它...

    Lucene3.1使用教程

    **Lucene 3.1 使用教程** Lucene 是一个高性能、全文检索库,由Apache软件基金会开发并维护。它提供了一个简单但功能强大的API,使得开发者可以轻松地在应用程序中集成全文检索功能。本教程主要关注的是Lucene 3.1...

    Lucene-Demo.rar Lucene分词的demo

    这个名为"Lucene-Demo.rar"的压缩包提供了一个基于Lucene的分词演示项目,可以帮助开发者快速理解和应用Lucene的分词功能。在这个压缩包中,有两个主要的文件:`lucene`目录和`Lucene-Demo`文件。 `lucene`目录很...

    lucene2.9.1-src.tar.gz源码及完整Demo

    lucene2.9.1-src.tar.gz源码及完整Demo Lucene是一套用于全文检索和搜寻的开源程式库,由Apache软件基金会支持和提供。Lucene提供了一个简单确强大的应用程式接口,能够做全文索引和搜寻,在Java开发环境里Lucene...

    基于lucene的搜索引擎.kdh

    基于lucene的搜索引擎,相关论文,欢迎下载

    lucene.net.analysis.cn

    Lucene.NET的中文分词模块通常使用基于字节编码的词典,如Big5或GBK编码的词典,以适应不同字符集的需求。 3. 词项过滤器(TokenFilter):过滤器用于进一步处理分词结果,如去除停用词(如“的”、“是”等常见但...

    lucene3.0-highlighter.jar

    lucene3.0-highlighter.jar lucene3.0的高亮jar包,从lucene3.0源码中导出来的

    Lucene3.1 jar

    Lucene3.1 jar Lucene3.1 jarLucene3.1 jarLucene3.1 jarLucene3.1 jar

    LuceneDemo.zip

    本篇文章将基于"LuceneDemo.zip"这个压缩包文件,探讨Lucene的使用方法和核心概念。 首先,我们要明确的是,"LuceneDemo.zip"是一个包含了Lucene实例的压缩文件。通过解压并运行其中的项目,我们可以亲身体验Lucene...

    基于lucene的web工程.ppt

    基于lucen的web工程,很好,很实用的一部分

    Lucene.Net中文分词组件 Lucene.Net.Analysis.Cn

    Lucene.Net中文分词组件 Lucene.Net.Analysis.Cn

    lucene3.3的全部jar包

    lucene-demo-3.3.0.jar lucene-grouping-3.3.0.jar lucene-highlighter-3.3.0.jar lucene-icu-3.3.0.jar lucene-instantiated-3.3.0.jar lucene-memory-3.3.0.jar lucene-misc-3.3.0.jar lucene-queries-3.3.0.jar ...

    vb.net2.0_Lucene_test.rar_lucene_lucene vb.n_lucene.net vb

    Lucene是一个高性能、全文本搜索库,广泛应用于Java开发,而这里则是将其应用在了VB.NET环境中。这个压缩包可能包含了相关的源代码、示例或者测试数据,便于开发者了解如何在VB.NET 2.0中集成和使用Lucene。 描述中...

    基于lucene 的简单搜索引擎.rar

    **基于Lucene的简单搜索引擎构建详解** Lucene是Apache软件基金会的一个开源项目,它是一个高性能、全文本搜索库,提供了一个强大的信息检索引擎框架。这个压缩包“基于lucene 的简单搜索引擎.rar”很可能是为了...

    Lucene.Net-2.0.doc

    Lucene.Net-2.0.doc 更多信息请查看 www.iubang.com

Global site tag (gtag.js) - Google Analytics