`

【Lucene3.0 初窥】Lucene体系结构概述

阅读更多

Lucene 的基本原理与《全文检索的基本原理 》是差不多的。

 

Lucene 的源码主要有7 个子包,每个包完成特定的功能:

 

包名

功能描述

org.apache.lucene.analysis

语言分析器,主要用于的切词,支持中文主要是扩展此类

org.apache.lucene.document

索引存储时的文档结构管理,类似于关系型数据库的表结构

org.apache.lucene.index

索引管理,包括索引建立、删除等

org.apache.lucene.queryParser

查询分析器,实现查询关键词间的运算,如与、或、非等

org.apache.lucene.search

检索管理,根据查询条件,检索得到结果

org.apache.lucene.store

数据存储管理,主要包括一些底层的 I/O 操作

org.apache.lucene.util

一些公用类

 

 

      另外:Lucene 3.0 还有一个org.apache.lucene.messages 包,这个包增加了本地语言支持NLS 和软件系统国际化。

 

 

 

     上面的图可以很明显的看出Lucene 的两大主要的功能:建立索引( 红色箭头:Index), 检索索引( 蓝色箭头:Search)

  • analysis 模块主要负责词法分析及语言处理而形成Term() 具体参见文章《 Lucene分析器—Analyzer
  • index 模块主要负责索引的创建,里面有IndexWriter
  • store 模块主要负责索引的读写。
  • queryParser 主要负责语法分析。
  • search 模块主要负责对索引的搜索 ( 其中similarity 就是相关性打分)

讲到这里基本上对全文检索工具包Lucene的原理和结构已经有了大致的了解了,下面给出Lucene3.0.1建立索引和检索索引的基本代码,关于Lucene的细节探讨将在后续文章中展开。

import java.io.File;  
import java.io.FileReader;  
import java.io.IOException;  
  
import org.apache.lucene.analysis.standard.StandardAnalyzer;  
import org.apache.lucene.document.DateTools;  
import org.apache.lucene.document.Document;  
import org.apache.lucene.document.Field;  
import org.apache.lucene.index.IndexWriter;  
import org.apache.lucene.store.FSDirectory;  
import org.apache.lucene.util.Version;  

public class IndexFiles {
   // 主要代码 索引docDir文件夹下文档,索引文件在INDEX_DIR文件夹中  
   public static void main(String[] args) {  
		
	File indexDir=new File("e:\\实验\\index");
	File docDir = new File("e:\\实验\\content"); 
	    
	try {  
               //索引器
      	       IndexWriter standardWriter = new IndexWriter(FSDirectory.open(indexDir), new StandardAnalyzer(Version.LUCENE_CURRENT), true, IndexWriter.MaxFieldLength.LIMITED);            
               //不建立复合式索引文件,默认的情况下是复合式的索引文件
               standardWriter.setUseCompoundFile(false);
	       String[] files = docDir.list(); 
	       for (String fileStr : files) {  
	           File file = new File(docDir, fileStr);  
	           if (!file.isDirectory()) {         	
	              Document doc = new Document();  
	              //文件名称,可查询,不分词
	              String fileName=file.getName().substring(0,file.getName().indexOf("."));
	              doc.add(new Field("name",fileName, Field.Store.YES, Field.Index.NOT_ANALYZED));    	    
	              //文件路径,可查询,不分词
	              String filePath=file.getPath();
	              doc.add(new Field("path", filePath, Field.Store.YES, Field.Index.NOT_ANALYZED));   
	              //文件内容,需要检索
	              doc.add(new Field("content", new FileReader(file)));  
	              standardWriter.addDocument(doc);  
	           }  
	       }  
	       standardWriter.optimize();
               //关闭索引器
                standardWriter.close();  
	 } catch (IOException e) {  
	       System.out.println(" caught a " + e.getClass() + "\n with message: " + e.getMessage());  
         }  
     }   
}

 

import java.io.BufferedReader;  
import java.io.File;  
import java.io.IOException;  
import java.io.InputStreamReader;  
  
import org.apache.lucene.analysis.Analyzer;  
import org.apache.lucene.analysis.standard.StandardAnalyzer;  
import org.apache.lucene.document.Document;  
import org.apache.lucene.index.IndexReader;  
import org.apache.lucene.queryParser.QueryParser;  
import org.apache.lucene.search.IndexSearcher;  
import org.apache.lucene.search.Query;  
import org.apache.lucene.search.ScoreDoc;  
import org.apache.lucene.search.Searcher;  
import org.apache.lucene.search.TopScoreDocCollector;  
import org.apache.lucene.store.FSDirectory;  
import org.apache.lucene.util.Version;  
/**
  * 检索索引
  */  
public class SearchFiles {  
  
    /** Simple command-line based search demo. */  
    public static void main(String[] args) throws Exception {  
  
        String index = "E:\\实验\\index";  
        String field = "content";  
        String queries = null;  
        boolean raw = false;  
        // 要显示条数  
        int hitsPerPage = 10;  
  
        // searching, so read-only=true  
        IndexReader reader = IndexReader.open(FSDirectory.open(new File(index)), true); // only  
  
        Searcher searcher = new IndexSearcher(reader);  
        Analyzer standardAnalyzer = new StandardAnalyzer(Version.LUCENE_CURRENT);  

  
        BufferedReader in = new BufferedReader(new InputStreamReader(System.in));  
        QueryParser parser = new QueryParser(Version.LUCENE_CURRENT,field, standardAnalyzer);  
        while (true) {  
            if (queries == null) // prompt the user  
                System.out.println("Enter query: ");  
  
            String line = in.readLine();  
  
            if (line == null || line.length() == -1)  
                break;  
  
            line = line.trim();  
            if (line.length() == 0)  
                break;  
  
            Query query = parser.parse(line);  
            System.out.println("Searching for: " + query.toString(field));  
  
            doPagingSearch(in, searcher, query, hitsPerPage, raw, queries == null);  
        }  
        reader.close();  
    }  
  
    public static void doPagingSearch(BufferedReader in, Searcher searcher, Query query, int hitsPerPage, boolean raw,  
            boolean interactive) throws IOException {  
  
        TopScoreDocCollector collector = TopScoreDocCollector.create(hitsPerPage, false);  
        searcher.search(query, collector);  
        ScoreDoc[] hits = collector.topDocs().scoreDocs;  
  
        int end, numTotalHits = collector.getTotalHits();  
        System.out.println(numTotalHits + " total matching documents");  
  
        int start = 0;  
  
        end = Math.min(hits.length, start + hitsPerPage);  
  
        for (int i = start; i < end; i++) {  
            Document doc = searcher.doc(hits[i].doc);  
            String path = doc.get("path");  
            if (path != null) {  
                System.out.println((i + 1) + ". " + path);    
            } else {  
                System.out.println((i + 1) + ". " + "No path for this document");  
            }  
          }  
      }  
  }  

 

 

 

 

分享到:
评论

相关推荐

    lucene3.0 lucene3.0

    lucene3.0 lucene3.0 lucene3.0 lucene3.0 lucene3.0

    lucene 3.0 API 中文帮助文档 chm

    lucene 3.0 API中文帮助,学习的人懂得的

    Lucene3.0之查询类型详解

    【Lucene3.0查询类型详解】 在Lucene3.0中,查询处理是一个关键环节,涉及多种查询方式和理论模型。以下是对这些概念的详细解释: 1. **查询方式**: - **顺序查询**:是最简单的查询方式,直接遍历索引,效率较...

    Lucene 3.0 原理与代码分析完整版

    《Lucene 3.0 原理与代码分析完整版》是一本深入解析Lucene 3.0搜索引擎库的专业书籍。Lucene是Apache软件基金会的开源项目,它为Java开发者提供了一个高性能、全文检索的工具包,广泛应用于各种信息检索系统。这...

    lucene3.0 分词器

    lucene3.0 中文分词器, 庖丁解牛

    lucene3.0核心jar包

    这里的"lucene3.0核心jar包"是 Lucene 的一个重要版本,发布于2009年,为当时的开发人员提供了构建全文搜索引擎的基础框架。 在 Lucene 3.0 中,以下几个关键知识点值得关注: 1. **索引结构**:Lucene 使用倒排...

    Lucene3.0全文信息检索

    1. **更高效的搜索**:Lucene 3.0通过优化搜索算法和数据结构,提高了搜索速度。例如,使用了改进的位向量技术,使得布尔查询更快。 2. **多线程支持**:在3.0版本中,Lucene增强了多线程处理能力,允许在并发环境...

    lucene3.0庖丁+索引搜索程序

    一、Lucene3.0概述 Lucene3.0是Apache软件基金会的一个项目,它是Java语言实现的全文检索引擎,提供了高性能、可扩展的搜索和分析功能。Lucene的核心包括索引构建、倒排索引、查询解析和结果排序等关键部分。3.0...

    lucene3.0 实例

    在 Lucene 3.0 版本中,虽然已经相对较旧,但仍然包含了基本的搜索引擎功能,适用于简单或特定场景的搜索需求。在这个实例中,我们将探讨如何在 JDK 1.5 和 Lucene 3.0 的环境下构建和运行一个简单的搜索引擎。 ...

    lucene3.0资料包

    这里我们主要聚焦于`lucene3.0`版本,该版本在当时是Lucene的一个重要里程碑,引入了许多改进和新特性。 1. **索引构建**: 在Lucene3.0中,索引是数据检索的基础。它通过将文本数据转换为倒排索引来实现快速查询...

    lucene3.0-highlighter.jar

    lucene3.0-highlighter.jar lucene3.0的高亮jar包,从lucene3.0源码中导出来的

    lucene3.0使用介绍及实例

    - **高效的全文检索**:Lucene使用倒排索引结构,使得搜索速度非常快。 - **灵活的查询语言**:支持复杂的布尔逻辑和通配符查询,还可以自定义查询解析器。 - **多语言支持**:内置多种语言的分词器,可适应不同语言...

    与lucene3.0兼容的庖丁jar包

    lucene升级了,分词也得升级哦! 在使用lucene3与paoding集成的时候可能会出现以下错误: Exception in thread "main" java.lang.AbstractMethodError: org.apache.lucene.analysis.TokenStream.incrementToken()Z ...

    lucene3.0全文检索入门实例

    **Lucene 3.0 全文检索入门实例** Lucene 是一个开源的全文检索库,由 Apache 软件基金会开发。它提供了一个高级、灵活的搜索功能框架,允许开发者在自己的应用中轻松地集成全文检索功能。本文将重点介绍如何使用 ...

    lucene 2.0 api以及lucene 3.0 api

    **Lucene 2.0 API 和 Lucene 3.0 API 深度解析** Lucene 是一个由 Apache 软件基金会开发的全文搜索引擎库,它为开发者提供了在 Java 应用程序中实现高性能、可扩展的全文搜索功能的能力。Lucene 的 API 设计得相当...

    Lucene3.0分词系统.doc

    为了高效实现词典匹配,Lucene3.0使用了如数字搜索树(Trie树)等数据结构。Trie树是一种前缀树,特别适合用于快速查找词典中的词汇,尤其是在处理中文这样的大字符集时,Trie树的性能优势更加明显。 #### 基于语义...

    lucene 3.0 入门实例

    **Lucene 3.0 入门实例** Lucene 是一个高性能、全文本搜索库,由 Apache 软件基金会开发。它提供了完整的搜索功能,包括索引、查询解析、排序以及高级的文本分析能力。在 Lucene 3.0 版本中,开发者可以利用其强大...

Global site tag (gtag.js) - Google Analytics