`
wujiangming
  • 浏览: 14549 次
  • 性别: Icon_minigender_1
  • 来自: 南京
文章分类
社区版块
存档分类
最新评论

java lucene

阅读更多
http://sourceforge.net/projects/regain/files/

http://sourceforge.jp/projects/sfnet_regain/releases/?file_id=2419546

http://code.google.com/p/paoding/downloads/list







lucene3.0入门实例2009-12-07 21:33lucene3.0已于2009-11-25发布啦,但网上的入门实例都是针对lucene3.0以前的,相对于以前的版本,貌似改动不小。

本人从零开始学习《lucene in action中文版》,并结合lucene3.0文档写了个入门实例,可供像我一样直接从lucene3.0开始学习的初学者参考!(变化大的地方用蓝字标出来了)

入门实例:

1.预处理:先把网上下载的一个《三国演义》电子书“三国演义.txt”(可用其他代替,呵呵)切割成多个小文件。
/**
* @author ht
* 预处理
*
*/
public class FilePreprocess {
public static void main(String[] arg){
String outputpath = "D:\\test\\small\\";//小文件存放路径
String filename = "D:\\test\\三国演义.txt";//原文件存放路径
if(!new File(outputpath).exists()){
new File(outputpath).mkdirs();
}

splitToSmallFiles(new File(filename), outputpath);
}
/**大文件切割为小的
* @param file
* @param outputpath
*/
public static void splitToSmallFiles(File file ,String outputpath){
int filePointer = 0;
int MAX_SIZE = 10240;//小文件大小
String filename = "output";//小文件的文件名前缀

BufferedWriter writer = null;
try {
BufferedReader reader = new BufferedReader(new FileReader(file));
StringBuffer buffer = new StringBuffer();
String line = reader.readLine();
while(line != null){
buffer.append(line).append("\r\n");
if(buffer.toString().getBytes().length>=MAX_SIZE){
writer = new BufferedWriter(new FileWriter(outputpath+filename+filePointer+".txt"));
writer.write(buffer.toString());
writer.close();
filePointer++;
buffer=new StringBuffer();
}
line = reader.readLine();               
}
writer = new BufferedWriter(new FileWriter(outputpath+filename+filePointer+".txt"));
writer.write(buffer.toString());
writer.close();
System.out.println("The file hava splited to small files !");
} catch (FileNotFoundException e) {
System.out.println("file not found !");
e.printStackTrace();
} catch (IOException e) {
e.printStackTrace();
}       
}

2.用lucene3.0生成索引类:用lencene3.0对生成的多个小文件进行索引,中文分词用的是lucene3.0自带的StandardAnalyzer.
/**
* @author ht
* 索引生成
*
*/
public class Indexer {
private static String INDEX_DIR = "D:\\test\\index";//索引存放目录
private static String DATA_DIR = "D:\\test\\small\\";//小文件存放的目录

public static void main(String[] args) throws Exception {

long start = new Date().getTime();
int numIndexed = index(new File(INDEX_DIR), new File(DATA_DIR));//调用index方法
long end = new Date().getTime();
System.out.println("Indexing " + numIndexed + " files took " + (end - start) + " milliseconds");
}

/**索引dataDir下的.txt文件,并储存在indexDir下,返回索引的文件数量
* @param indexDir
* @param dataDir
* @return int
* @throws IOException
*/
public static int index(File indexDir, File dataDir) throws IOException {

if (!dataDir.exists() || !dataDir.isDirectory()) {
throw new IOException(dataDir + " does not exist or is not a directory");
}

IndexWriter writer = new IndexWriter(FSDirectory.open(indexDir), new  StandardAnalyzer(Version.LUCENE_CURRENT), true,   
IndexWriter.MaxFieldLength.LIMITED);

indexDirectory(writer, dataDir);//调用indexDirectory方法
int numIndexed = writer.numDocs();
writer.optimize();
writer.close();
return numIndexed;
}

/**循环遍历目录下的所有.txt文件并进行索引
* @param writer
* @param dir
* @throws IOException
*/
private static void indexDirectory(IndexWriter writer, File dir)
throws IOException {

File[] files = dir.listFiles();

for (int i = 0; i < files.length; i++) {
File f = files[i];
if (f.isDirectory()) {
indexDirectory(writer, f);  // recurse
} else if (f.getName().endsWith(".txt")) {
indexFile(writer, f);
}
}
}

/**对单个txt文件进行索引
* @param writer
* @param f
* @throws IOException
*/
private static void indexFile(IndexWriter writer, File f)
throws IOException {

if (f.isHidden() || !f.exists() || !f.canRead()) {
return;
}

System.out.println("Indexing " + f.getCanonicalPath());
Document doc = new Document();
doc.add(new Field("contents",new FileReader(f)));
doc.add(new Field("filename",f.getCanonicalPath(),Field.Store.YES, Field.Index.ANALYZED));

writer.addDocument(doc);
}
}


3.查询类:查询“玄德”!
/**
* @author ht
* 查询
*
*/
public class Searcher {
private static String INDEX_DIR = "D:\\test\\index\\";//索引所在的路径
private static String KEYWORD = "玄德";//关键词
private static int TOP_NUM = 100;//显示前100条结果

public static void main(String[] args) throws Exception {
File indexDir = new File(INDEX_DIR);
if (!indexDir.exists() || !indexDir.isDirectory()) {
throw new Exception(indexDir +
" does not exist or is not a directory.");
}
search(indexDir, KEYWORD);//调用search方法进行查询
}
/**查询
* @param indexDir
* @param q
* @throws Exception
*/
public static void search(File indexDir, String q) throws Exception {
IndexSearcher is = new IndexSearcher(FSDirectory.open(indexDir),true);//read-only
String field = "contents";

QueryParser parser = new QueryParser(Version.LUCENE_CURRENT, field, new  StandardAnalyzer(Version.LUCENE_CURRENT));
Query query = parser.parse(q);

TopScoreDocCollector collector = TopScoreDocCollector.create(TOP_NUM , false);

long start = new Date().getTime();// start time

is.search(query, collector);
ScoreDoc[] hits = collector.topDocs().scoreDocs;

System.out.println(hits.length);
for (int i = 0; i < hits.length; i++) {
Document doc = is.doc(hits[i].doc);//new method is.doc()
System.out.println(doc.getField("filename")+"   "+hits[i].toString()+"  ");
}
long end = new Date().getTime();//end time

System.out.println("Found " + collector.getTotalHits() +
" document(s) (in " + (end - start) +
" milliseconds) that matched query '" +
q + "':");
}
}




分享到:
评论

相关推荐

    lucene全文搜素实例 java lucene 实例

    **Lucene 全文搜索引擎实例:Java Lucene 实例** Lucene 是 Apache 软件基金会的一个开源项目,它提供了一个高性能、可扩展的信息检索库。这个实例将深入讲解如何在 Java 中使用 Lucene 来创建索引并执行各种搜索...

    java Lucene初级教程

    lucene简介 1.1 什么是lucene  Lucene是一个全文搜索框架,而不是应用产品。因此它并不像www.baidu.com 或者google Desktop那么拿来就能用,它只是提供了一种工具让你能实现这些产品。 2 lucene的工作方式  lucene...

    java lucene3.0 jar包

    Java Lucene 3.0 Jar包是用于在Java应用程序中实现全文搜索引擎功能的重要库。Lucene是一个开源的、高性能的文本分析和搜索库,由Apache软件基金会开发并维护。这个包包含了三个主要的JAR文件,分别是`lucene-core-...

    java lucene 实现分词和词干抽取

    用java实现的,利用了lucene里面的standardAnalyzer分析器实现的分词,可以去停用词,再利用波特算法实现 词干提取 最后排序 和词频统计输出

    java Lucene 工具类

    Java Lucene 是一个开源全文搜索引擎库,由Apache软件基金会开发并维护。它为开发者提供了在Java应用程序中实现全文检索和索引的强大工具。这个“Java Lucene 工具类”可能是一个博主分享的关于如何使用Lucene进行...

    基于JavaLucene的分级鉴权资源管理系统的研究与实现.pdf

    基于Java Lucene的分级鉴权资源管理系统的研究与实现 本文研究了基于Java Lucene的分级鉴权资源管理系统,旨在解决企业内部的资料保密和共享的问题。系统采用分级鉴权的模式,提供了一個高效便利保密的资源共享管理...

    JAVA lucene全文检索工具包的理解与使用.doc

    【Java Lucene全文检索工具包理解与使用】 Java Lucene是一个强大的开源全文搜索库,它为开发者提供了构建高效全文搜索引擎的基础。不同于可以直接使用的搜索引擎产品,如百度或Google Desktop,Lucene是一个框架,...

    Java搜索引擎 Lucene

    Java搜索引擎Lucene是一款开源的全文检索库,由Apache软件基金会开发并维护,它为Java开发者提供了强大的文本搜索功能。Lucene的核心目标是让开发者能够快速地在应用中集成高级的搜索功能,使得用户可以轻松地查找和...

    Java Lucene in Action(简体中文版)

    Java Lucene in Action(简体中文版)

    [毕设]Java Lucene公交路线查询系统.zip

    [毕设]Java Lucene公交路线查询系统

    Lucene 索引的简单使用

    Lucene,作为Apache软件基金会的一个开源项目,是Java平台上的全文检索库,它提供了文本检索的核心工具,使得开发者能够快速地在应用程序中实现高级的搜索功能。本篇文章将详细阐述如何使用Lucene来创建和查询索引,...

    lucene-core-7.7.0-API文档-中文版.zip

    标签:apache、lucene、core、中文文档、jar包、java; 使用方法:解压翻译后的API文档,用浏览器打开“index.html”文件,即可纵览文档内容。 人性化翻译,文档中的代码和结构保持不变,注释和说明精准翻译,请放心...

    JAVA Lucene in Action教程完整版

    JAVA_Lucene_in_Action教程完整版.网上找的,好东西共享一下

    Java全文检索引擎Lucene的应用.pdf

    ### Java全文检索引擎Lucene的应用 #### 一、引言 随着信息技术的飞速发展,尤其是数据库技术和数据库管理系统(DBMS)的广泛应用,全球范围内的数据量急剧增长。特别是在科学研究领域,面对海量的数据,传统的手工...

    Java搜索工具——Lucene实例总结(一)

    Java搜索工具——Lucene实例总结(一) 在Java开发中,搜索引擎已经成为不可或缺的一部分,而Apache Lucene正是一个强大的全文搜索引擎库。这篇博文将带你深入理解Lucene的基本概念和使用方式,帮助你快速入门并掌握...

    Lucene基于java的全文检索案例

    Lucene 是用 Java 编写的,但也有其他语言的版本,如 .NET 的 Lucene.NET。作为一个库,它允许开发者在自己的应用中嵌入全文检索功能,支持对文本数据的索引、搜索和排序。 **Lucene 的主要组件** 1. **索引...

    Lucene示例 BM25相似度计算

    在IT领域,搜索引擎技术是至关重要的,而Lucene作为一个开源全文搜索引擎库,广泛应用于各种文本检索系统中。本文将深入探讨Lucene示例中的BM25相似度计算,旨在帮助初学者理解如何利用Lucene 4.7.1版本构建索引、...

    lucene 高亮显示. java

    标题与描述概述的知识点主要集中在Lucene的高亮显示功能,尤其是在处理中文分词时的性能优化策略。以下是对这些知识点的详细展开: ### Lucene的高亮显示 Lucene是一款高性能、全功能的文本搜索引擎库,其高亮显示...

    java Lucene 中自定义排序的实现

    Lucene中的自定义排序功能和Java集合中的自定义排序的实现方法差不多,都要实现一下比较接口. 在Java中只要实现Comparable接口就可以了.但是在Lucene中要实现SortComparatorSource接口和ScoreDocComparator接口.在...

Global site tag (gtag.js) - Google Analytics