`
阅读更多
Lucene是apache组织的一个用java实现全文搜索引擎的开源项目。其功能非常的强大,api也很简单。总得来说用Lucene来进行建立 和搜索和操作数据库是差不多的(有点像),Document可以看作是数据库的一行记录,Field可以看作是数据库的字段。用lucene实 现搜索引擎就像用JDBC实现连接数据库一样简单。

Lucene2.0,它与以前广泛应用和介绍的Lucene 1.4.3并不兼容。 Lucene2.0的下载地址是http://apache.justdn.org/lucene/java/


例子一 :

1、在windows系统下的的C盘,建一个名叫s的文件夹,在该文件夹里面随便建三个txt文件,随便起名啦,就叫"1.txt","2.txt"和"3.txt"啦
其中1.txt的内容如下:

中华人民共和国  
全国人民  
2006年  
而"2.txt"和"3.txt"的内容也可以随便写几写,这里懒写,就复制一个和1.txt文件的内容一样吧

2、下载lucene包,放在classpath路径中
建立索引:

package  lighter.iteye.com;  
 
import  java.io.BufferedReader;  
import  java.io.File;  
import  java.io.FileInputStream;  
import  java.io.IOException;  
import  java.io.InputStreamReader;  
import  java.util.Date;  
 
import  org.apache.lucene.analysis.Analyzer;  
import  org.apache.lucene.analysis.standard.StandardAnalyzer;  
import  org.apache.lucene.document.Document;  
import  org.apache.lucene.document.Field;  
import  org.apache.lucene.index.IndexWriter;  
 
/** */ /**  
* author lighter date 2006-8-7 
  */  
public   class  TextFileIndexer   {  
     public   static   void  main(String[] args)  throws  Exception   {  
         /**/ /*  指明要索引文件夹的位置,这里是C盘的S文件夹下  */  
        File fileDir  =   new  File( " c:\\s " );  
 
         /**/ /*  这里放索引文件的位置  */  
        File indexDir  =   new  File( " c:\\index " );  
        Analyzer luceneAnalyzer  =   new  StandardAnalyzer();  
        IndexWriter indexWriter  =   new  IndexWriter(indexDir, luceneAnalyzer,  
                 true );  
        File[] textFiles  =  fileDir.listFiles();  
         long  startTime  =   new  Date().getTime();  
          
         // 增加document到索引去   
           for  ( int  i  =   0 ; i  <  textFiles.length; i ++ )   {  
             if  (textFiles[i].isFile()  
                     &&  textFiles[i].getName().endsWith( " .txt " ))   {  
                System.out.println( " File  "   +  textFiles[i].getCanonicalPath()  
                         +   " 正在被索引. " );  
                String temp  =  FileReaderAll(textFiles[i].getCanonicalPath(),  
                         " GBK " );  
                System.out.println(temp);  
                Document document  =   new  Document();  
                Field FieldPath  =   new  Field( " path " , textFiles[i].getPath(),  
                        Field.Store.YES, Field.Index.NO);  
                Field FieldBody  =   new  Field( " body " , temp, Field.Store.YES,  
                        Field.Index.TOKENIZED,  
                        Field.TermVector.WITH_POSITIONS_OFFSETS);  
                document.add(FieldPath);  
                document.add(FieldBody);  
                indexWriter.addDocument(document);  
            }   
        }   
         // optimize()方法是对索引进行优化   
         indexWriter.optimize();  
        indexWriter.close();  
          
         // 测试一下索引的时间   
          long  endTime  =   new  Date().getTime();  
        System.out  
                .println( " 这花费了 "  
                         +  (endTime  -  startTime)  
                         +   "  毫秒来把文档增加到索引里面去! "  
                         +  fileDir.getPath());  
    }   
 
     public   static  String FileReaderAll(String FileName, String charset)  
             throws  IOException   {  
        BufferedReader reader  =   new  BufferedReader( new  InputStreamReader(  
                 new  FileInputStream(FileName), charset));  
        String line  =   new  String();  
        String temp  =   new  String();  
          
         while  ((line  =  reader.readLine())  !=   null )   {  
            temp  +=  line;  
        }   
        reader.close();  
         return  temp;  
    }   
}  
索引的结果:

File C:\s\ 1 .txt正在被索引.  
中华人民共和国全国人民2006年  
File C:\s\ 2 .txt正在被索引.  
中华人民共和国全国人民2006年  
File C:\s\ 3 .txt正在被索引.  
中华人民共和国全国人民2006年  
这花费了297 毫秒来把文档增加到索引里面去 ! c:\s  

3、建立了索引之后,查询啦....

package  lighter.iteye.com;  
 
import  java.io.IOException;  
 
import  org.apache.lucene.analysis.Analyzer;  
import  org.apache.lucene.analysis.standard.StandardAnalyzer;  
import  org.apache.lucene.queryParser.ParseException;  
import  org.apache.lucene.queryParser.QueryParser;  
import  org.apache.lucene.search.Hits;  
import  org.apache.lucene.search.IndexSearcher;  
import  org.apache.lucene.search.Query;  
 
public   class  TestQuery   {  
     public   static   void  main(String[] args)  throws  IOException, ParseException   {  
        Hits hits  =   null ;  
        String queryString  =   " 中华 " ;  
        Query query  =   null ;  
        IndexSearcher searcher  =   new  IndexSearcher( " c:\\index " );  
 
        Analyzer analyzer  =   new  StandardAnalyzer();  
         try    {  
            QueryParser qp  =   new  QueryParser( " body " , analyzer);  
            query  =  qp.parse(queryString);  
        }   catch  (ParseException e)   {  
        }   
         if  (searcher  !=   null )   {  
            hits  =  searcher.search(query);  
             if  (hits.length()  >   0 )   {  
                System.out.println( " 找到: "   +  hits.length()  +   "  个结果! " );  
            }   
        }   
    } 
 
}  

其运行结果:


找到: 3  个结果 !


Lucene 其实很简单的,它最主要就是做两件事:建立索引和进行搜索
来看一些在lucene中使用的术语,这里并不打算作详细的介绍,只是点一下而已----因为这一个世界有一种好东西,叫搜索。

IndexWriter:lucene中最重要的的类之一,它主要是用来将文档加入索引,同时控制索引过程中的一些参数使用。

Analyzer:分析器,主要用于分析搜索引擎遇到的各种文本。常用的有StandardAnalyzer分析器,StopAnalyzer分析器,WhitespaceAnalyzer分析器等。

Directory:索引存放的位置;lucene提供了两种索引存放的位置,一种是磁盘,一种是内存。一般情况将索引放在磁盘上;相应地lucene提供了FSDirectory和RAMDirectory两个类。

Document:文档;Document相当于一个要进行索引的单元,任何可以想要被索引的文件都必须转化为Document对象才能进行索引。

Field:字段。

IndexSearcher:是lucene中最基本的检索工具,所有的检索都会用到IndexSearcher工具;

Query:查询,lucene中支持模糊查询,语义查询,短语查询,组合查询等等,如有TermQuery,BooleanQuery,RangeQuery,WildcardQuery等一些类。

QueryParser: 是一个解析用户输入的工具,可以通过扫描用户输入的字符串,生成Query对象。

Hits:在搜索完成之后,需要把搜索结果返回并显示给用户,只有这样才算是完成搜索的目的。在lucene中,搜索的结果的集合是用Hits类的实例来表示的。

上面作了一大堆名词解释,下面就看几个简单的实例吧:
1、简单的的StandardAnalyzer测试例子



package  lighter.iteye.com;  
 
import  java.io.IOException;  
import  java.io.StringReader;  
 
import  org.apache.lucene.analysis.Analyzer;  
import  org.apache.lucene.analysis.Token;  
import  org.apache.lucene.analysis.TokenStream;  
import  org.apache.lucene.analysis.standard.StandardAnalyzer;  
 
public   class  StandardAnalyzerTest   
  {  
     // 构造函数,   
      public  StandardAnalyzerTest()  
      {  
    }   
     public   static   void  main(String[] args)   
      {  
         // 生成一个StandardAnalyzer对象   
         Analyzer aAnalyzer  =   new  StandardAnalyzer();  
         // 测试字符串   
         StringReader sr  =   new  StringReader( " lighter javaeye com is the are on " );  
         // 生成TokenStream对象   
         TokenStream ts  =  aAnalyzer.tokenStream( " name " , sr);   
         try    {  
             int  i = 0 ;  
            Token t  =  ts.next();  
             while (t != null )  
              {  
                 // 辅助输出时显示行号   
                 i ++ ;  
                 // 输出处理后的字符   
                 System.out.println( " 第 " + i + " 行: " + t.termText());  
                 // 取得下一个字符   
                 t = ts.next();  
            }   
        } 
分享到:
评论

相关推荐

    lucene,lucene教程,lucene讲解

    lucene,lucene教程,lucene讲解。 为了对文档进行索引,Lucene 提供了五个基础的类 public class IndexWriter org.apache.lucene.index.IndexWriter public abstract class Directory org.apache.lucene.store....

    Lucene时间区间搜索

    Lucene是一款强大的全文搜索引擎库,广泛应用于各种数据检索场景。在C#环境下,利用Lucene进行时间区间搜索是提高数据检索效率和精确度的重要手段。本篇将深入探讨如何在C#中实现Lucene的时间区间查询匹配,以及涉及...

    lucene-4.7.0全套jar包

    【Lucene 4.7.0 全套JAR包详解】 Lucene是一个开源全文搜索引擎库,由Apache软件基金会开发并维护。它提供了一个高级、灵活的文本搜索API,允许开发者轻松地在应用程序中实现复杂的搜索功能。这次提供的“lucene-...

    Lucene3.5源码jar包

    本压缩包包含的是Lucene 3.5.0版本的全部源码,对于想要深入理解Lucene工作原理、进行二次开发或者进行搜索引擎相关研究的开发者来说,是一份非常宝贵的学习资源。 Lucene 3.5.0是Lucene的一个重要版本,它在3.x...

    lucene in action 2nd edition, lucene in action 第二版 PDF

    《Lucene in Action 第二版》是一本深入探讨Apache Lucene全文检索库的专业书籍,它在Java开发领域具有很高的权威性。这本书详细介绍了如何利用Lucene进行高效的文本搜索和索引构建,是Java开发者和信息检索爱好者的...

    Lucene示例 BM25相似度计算

    在IT领域,搜索引擎技术是至关重要的,而Lucene作为一个开源全文搜索引擎库,广泛应用于各种文本检索系统中。本文将深入探讨Lucene示例中的BM25相似度计算,旨在帮助初学者理解如何利用Lucene 4.7.1版本构建索引、...

    Lucene与关系型数据库对比

    《Lucene与关系型数据库对比:深度解析与应用探索》 在信息爆炸的时代,数据管理和检索成为了企业乃至个人日常工作中不可或缺的部分。随着技术的发展,不同的数据处理方式应运而生,其中Lucene与关系型数据库作为两...

    lucene-core-7.2.1-API文档-中文版.zip

    赠送jar包:lucene-core-7.2.1.jar; 赠送原API文档:lucene-core-7.2.1-javadoc.jar; 赠送源代码:lucene-core-7.2.1-sources.jar; 赠送Maven依赖信息文件:lucene-core-7.2.1.pom; 包含翻译后的API文档:lucene...

    lucene.NET 中文分词

    **Lucene.NET 中文分词技术详解** Lucene.NET 是一个高性能、全文检索库,它是Apache Lucene项目在.NET平台上的实现。作为一个开源的搜索引擎框架,Lucene.NET为开发者提供了强大的文本搜索功能。而在处理中文文档...

    lucene-core-7.7.0-API文档-中文版.zip

    赠送jar包:lucene-core-7.7.0.jar; 赠送原API文档:lucene-core-7.7.0-javadoc.jar; 赠送源代码:lucene-core-7.7.0-sources.jar; 赠送Maven依赖信息文件:lucene-core-7.7.0.pom; 包含翻译后的API文档:lucene...

    lucene所有的jar包

    《全面解析Lucene jar包:从基础到应用》 在信息技术高速发展的今天,搜索引擎已经成为我们获取信息不可或缺的工具。在Java领域,Lucene作为一个强大的全文搜索引擎库,深受开发者喜爱。本文将详细介绍“lucene所有...

    Lucene 5 主要jar包

    Apache Lucene是一个开源全文搜索引擎库,它为Java开发者提供了强大的文本搜索功能。在这个"Lucene 5 主要jar包"中,我们找到了一系列与Lucene 5.0.0相关的jar文件,这些文件是构建和运行基于Lucene的搜索应用程序的...

    Lucene的原理完整版pdf

    **Lucene原理详解** Lucene是一个高性能、全文检索库,由Apache软件基金会开发并维护,是Java编程语言中广泛使用的搜索引擎库。它提供了一个简单但功能强大的API,用于索引和搜索文本数据,使得开发者可以轻松地在...

    Lucene中的FST算法描述

    在信息检索和存储系统中,Lucene是一个开源的全文搜索引擎库,广泛应用于各种需要全文搜索功能的软件项目中。为了高效地处理和检索存储的词项(term),Lucene使用了FST(有限状态转换器,Finite State Transducer)...

    基于lucene技术的增量索引

    **基于Lucene技术的增量索引** 在信息技术领域,全文搜索引擎是处理大量数据查询的关键工具。Apache Lucene是一个开源的全文检索库,被广泛应用于构建高效、可扩展的搜索功能。本文将深入探讨如何利用Lucene实现...

    C#调用Lucene方法-实现快速搜索

    为了在C#中使用Lucene,我们需要借助.NET上的Lucene.NET,这是一个与Java Lucene兼容的.NET框架版本。 接下来,我们探讨C#调用Lucene的步骤: 1. **引入Lucene库**:在C#项目中,首先需要添加对Lucene.NET的引用。...

    lucene 对 xml建立索引

    ### Lucene对XML文档建立索引的技术解析与实践 #### 一、引言 随着互联网技术的迅猛发展,非结构化数据(如XML文档)在企业和组织中的应用日益广泛。如何高效地处理这些非结构化的数据,特别是进行快速检索成为了一...

    lucene的jar包,欢迎下载

    【标题】"lucene的jar包,欢迎下载"所涉及的知识点主要集中在Lucene这个开源全文搜索引擎库上。Lucene是Apache软件基金会的顶级项目,它是一个高性能、全文本搜索库,提供了完整的搜索功能,包括索引、查询、排序等...

Global site tag (gtag.js) - Google Analytics