【Lucene3.0 初窥】Lucene体系结构概述

Heart.X.Raid

浏览: 905278 次
性别:
来自: 武汉

最近访客更多访客>>

rocleft

dy.f

leoeco2000

uule

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

信息检索与搜索引擎

lucene 数据结构 Apache 全文检索

Lucene 的基本原理与《全文检索的基本原理》是差不多的。

Lucene 的源码主要有7 个子包，每个包完成特定的功能：

包名	功能描述
org.apache.lucene.analysis	语言分析器，主要用于的切词，支持中文主要是扩展此类
org.apache.lucene.document	索引存储时的文档结构管理，类似于关系型数据库的表结构
org.apache.lucene.index	索引管理，包括索引建立、删除等
org.apache.lucene.queryParser	查询分析器，实现查询关键词间的运算，如与、或、非等
org.apache.lucene.search	检索管理，根据查询条件，检索得到结果
org.apache.lucene.store	数据存储管理，主要包括一些底层的 I/O 操作
org.apache.lucene.util	一些公用类

另外：Lucene 3.0 还有一个org.apache.lucene.messages 包，这个包增加了本地语言支持NLS 和软件系统国际化。

上面的图可以很明显的看出Lucene 的两大主要的功能：建立索引( 红色箭头：Index), 检索索引( 蓝色箭头：Search) 。

analysis 模块主要负责词法分析及语言处理而形成Term( 词) 。具体参见文章《 Lucene分析器—Analyzer 》
index 模块主要负责索引的创建，里面有IndexWriter 。
store 模块主要负责索引的读写。
queryParser 主要负责语法分析。
search 模块主要负责对索引的搜索 ( 其中similarity 就是相关性打分) 。

讲到这里基本上对全文检索工具包Lucene的原理和结构已经有了大致的了解了，下面给出Lucene3.0.1建立索引和检索索引的基本代码，关于Lucene的细节探讨将在后续文章中展开。

import java.io.File;  
import java.io.FileReader;  
import java.io.IOException;  
  
import org.apache.lucene.analysis.standard.StandardAnalyzer;  
import org.apache.lucene.document.DateTools;  
import org.apache.lucene.document.Document;  
import org.apache.lucene.document.Field;  
import org.apache.lucene.index.IndexWriter;  
import org.apache.lucene.store.FSDirectory;  
import org.apache.lucene.util.Version;  

public class IndexFiles {
   // 主要代码 索引docDir文件夹下文档，索引文件在INDEX_DIR文件夹中  
   public static void main(String[] args) {  
		
	File indexDir=new File("e:\\实验\\index");
	File docDir = new File("e:\\实验\\content"); 
	    
	try {  
               //索引器
      	       IndexWriter standardWriter = new IndexWriter(FSDirectory.open(indexDir), new StandardAnalyzer(Version.LUCENE_CURRENT), true, IndexWriter.MaxFieldLength.LIMITED);            
               //不建立复合式索引文件，默认的情况下是复合式的索引文件
               standardWriter.setUseCompoundFile(false);
	       String[] files = docDir.list(); 
	       for (String fileStr : files) {  
	           File file = new File(docDir, fileStr);  
	           if (!file.isDirectory()) {         	
	              Document doc = new Document();  
	              //文件名称，可查询，不分词
	              String fileName=file.getName().substring(0,file.getName().indexOf("."));
	              doc.add(new Field("name",fileName, Field.Store.YES, Field.Index.NOT_ANALYZED));    	    
	              //文件路径，可查询，不分词
	              String filePath=file.getPath();
	              doc.add(new Field("path", filePath, Field.Store.YES, Field.Index.NOT_ANALYZED));   
	              //文件内容，需要检索
	              doc.add(new Field("content", new FileReader(file)));  
	              standardWriter.addDocument(doc);  
	           }  
	       }  
	       standardWriter.optimize();
               //关闭索引器
                standardWriter.close();  
	 } catch (IOException e) {  
	       System.out.println(" caught a " + e.getClass() + "\n with message: " + e.getMessage());  
         }  
     }   
}

import java.io.BufferedReader;  
import java.io.File;  
import java.io.IOException;  
import java.io.InputStreamReader;  
  
import org.apache.lucene.analysis.Analyzer;  
import org.apache.lucene.analysis.standard.StandardAnalyzer;  
import org.apache.lucene.document.Document;  
import org.apache.lucene.index.IndexReader;  
import org.apache.lucene.queryParser.QueryParser;  
import org.apache.lucene.search.IndexSearcher;  
import org.apache.lucene.search.Query;  
import org.apache.lucene.search.ScoreDoc;  
import org.apache.lucene.search.Searcher;  
import org.apache.lucene.search.TopScoreDocCollector;  
import org.apache.lucene.store.FSDirectory;  
import org.apache.lucene.util.Version;  
/**
  * 检索索引
  */  
public class SearchFiles {  
  
    /** Simple command-line based search demo. */  
    public static void main(String[] args) throws Exception {  
  
        String index = "E:\\实验\\index";  
        String field = "content";  
        String queries = null;  
        boolean raw = false;  
        // 要显示条数  
        int hitsPerPage = 10;  
  
        // searching, so read-only=true  
        IndexReader reader = IndexReader.open(FSDirectory.open(new File(index)), true); // only  
  
        Searcher searcher = new IndexSearcher(reader);  
        Analyzer standardAnalyzer = new StandardAnalyzer(Version.LUCENE_CURRENT);  

  
        BufferedReader in = new BufferedReader(new InputStreamReader(System.in));  
        QueryParser parser = new QueryParser(Version.LUCENE_CURRENT,field, standardAnalyzer);  
        while (true) {  
            if (queries == null) // prompt the user  
                System.out.println("Enter query: ");  
  
            String line = in.readLine();  
  
            if (line == null || line.length() == -1)  
                break;  
  
            line = line.trim();  
            if (line.length() == 0)  
                break;  
  
            Query query = parser.parse(line);  
            System.out.println("Searching for: " + query.toString(field));  
  
            doPagingSearch(in, searcher, query, hitsPerPage, raw, queries == null);  
        }  
        reader.close();  
    }  
  
    public static void doPagingSearch(BufferedReader in, Searcher searcher, Query query, int hitsPerPage, boolean raw,  
            boolean interactive) throws IOException {  
  
        TopScoreDocCollector collector = TopScoreDocCollector.create(hitsPerPage, false);  
        searcher.search(query, collector);  
        ScoreDoc[] hits = collector.topDocs().scoreDocs;  
  
        int end, numTotalHits = collector.getTotalHits();  
        System.out.println(numTotalHits + " total matching documents");  
  
        int start = 0;  
  
        end = Math.min(hits.length, start + hitsPerPage);  
  
        for (int i = start; i < end; i++) {  
            Document doc = searcher.doc(hits[i].doc);  
            String path = doc.get("path");  
            if (path != null) {  
                System.out.println((i + 1) + ". " + path);    
            } else {  
                System.out.println((i + 1) + ". " + "No path for this document");  
            }  
          }  
      }  
  }

分享到：

【查找结构1】静态查找结构概论 | 【Lucene3.0 初窥】全文检索的基本原理

2010-03-05 11:37
浏览 4130
评论(0)
分类:互联网
查看更多

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

JavaEE学习课程分享精英强化班腾科.doc: ### JavaEE 学习课程知识点概述 #### 一、适用人群 - **热爱软件编程人群**：对编程充满热情的学习者。 - **具备数据库编程基础的人士**：有一定数据库使用经验，了解SQL语言等基本技能。 - **学习过JavaSE**：已经...

JAVA学习的参考学习流程: ##### 1.1 课程学习流程概述为了系统地学习Java并具备实际项目开发能力，本学习流程被划分为三个主要部分：基础课程、高级课程及专业课程。这种结构化的学习路径旨在帮助学习者从理论基础过渡到实践应用，最终掌握...

千里马平台技术路线说明书: #### 一、概述千里马平台技术路线说明书详细阐述了北京紫锐世博科技有限公司所构建的技术生态体系。该平台以JAVA为核心后端技术，配合VUE作为PC前端开发工具，UNIAPP负责移动端前端，以及PYTHON应用于人工智能领域...

少儿编程scratch项目源代码文件案例素材-绝地求生.zip: 少儿编程scratch项目源代码文件案例素材-绝地求生.zip

嵌入式八股文面试题库资料知识宝典-文思创新面试题2010-04-08.zip: 嵌入式八股文面试题库资料知识宝典-文思创新面试题2010-04-08.zip

一种基于剪切波和特征信息检测的太阳斑点图融合算法.pdf: 一种基于剪切波和特征信息检测的太阳斑点图融合算法.pdf

并联型APF有源电力滤波器Matlab Simulink仿真：dq与αβ坐标系下的谐波无功检测与PI控制及SVPWM调制: 内容概要：本文详细介绍了并联型有源电力滤波器（APF）在Matlab/Simulink环境下的仿真研究。主要内容涵盖三个关键技术点：一是dq与αβ坐标系下的谐波和无功检测，利用dq变换和FBD技术实现实时检测；二是两相旋转坐标系（dq）与两相静止坐标系（αβ）下的PI控制，通过调整比例和积分环节实现精准控制；三是SVPWM调制方式的应用，通过优化开关时序提升系统效率和性能。文中还提供了详细的仿真介绍文档，包括模型搭建、参数设定以及结果分析。适合人群：从事电力电子、自动化控制领域的研究人员和技术人员，尤其是对电力滤波器仿真感兴趣的读者。使用场景及目标：适用于需要深入了解并联型APF工作原理和实现方式的研究人员，旨在通过仿真工具掌握谐波和无功检测、PI控制及SVPWM调制的具体应用。其他说明：本文不仅提供了理论知识，还结合了实际操作步骤，使读者能够通过仿真模型加深对APF的理解。

Arduino KEY实验例程【正点原子ESP32S3】: Arduino KEY实验例程，开发板：正点原子EPS32S3，本人主页有详细实验说明可供参考。

嵌入式八股文面试题库资料知识宝典-嵌入式C语言面试题汇总(66页带答案).zip: 嵌入式八股文面试题库资料知识宝典-嵌入式C语言面试题汇总(66页带答案).zip

.archivetempdebug.zip: .archivetempdebug.zip

嵌入式系统开发_CH551单片机_USB_HID复合设备模拟_基于CH551单片机的USB键盘鼠标复合设备模拟器项目_用于通过CH551微控制器模拟USB键盘和鼠标输入设备_实现硬.zip: 嵌入式系统开发_CH551单片机_USB_HID复合设备模拟_基于CH551单片机的USB键盘鼠标复合设备模拟器项目_用于通过CH551微控制器模拟USB键盘和鼠标输入设备_实现硬

少儿编程scratch项目源代码文件案例素材-剑客冲刺.zip: 少儿编程scratch项目源代码文件案例素材-剑客冲刺.zip

少儿编程scratch项目源代码文件案例素材-火影.zip: 少儿编程scratch项目源代码文件案例素材-火影.zip

两极式单相光伏并网系统的Boost电路与桥式逆变仿真及优化方法: 内容概要：本文详细介绍了两极式单相光伏并网系统的组成及其仿真优化方法。前级采用Boost电路结合扰动观察法(P&O)进行最大功率点跟踪(MPPT)，将光伏板输出电压提升至并网所需水平；后级利用全桥逆变加L型滤波以及电压外环电流内环控制，确保并网电流与电网电压同频同相，实现高效稳定的并网传输。文中还提供了具体的仿真技巧，如开关频率设置、L滤波参数计算和并网瞬间软启动等，最终实现了98.2%的系统效率和低于0.39%的总谐波失真率(THD)。适合人群：从事光伏并网系统研究、设计和开发的技术人员，特别是对Boost电路、MPPT算法、逆变技术和双环控制系统感兴趣的工程师。使用场景及目标：适用于希望深入了解两极式单相光伏并网系统的工作原理和技术细节的研究人员和工程师。目标是在实际项目中应用这些理论和技术，提高光伏并网系统的效率和稳定性。其他说明：文中提供的仿真技巧和伪代码有助于读者更好地理解和实现相关算法，在实践中不断优化系统性能。同时，注意电网电压跌落时快速切换到孤岛模式的需求，确保系统的安全性和可靠性。

昭通乡镇边界，矢量边界，shp格式: 矢量边界，行政区域边界，精确到乡镇街道，可直接导入arcgis使用

嵌入式八股文面试题库资料知识宝典-嵌入式c面试.zip: 嵌入式八股文面试题库资料知识宝典-嵌入式c面试.zip

嵌入式八股文面试题库资料知识宝典-I2C总线.zip: 嵌入式八股文面试题库资料知识宝典-I2C总线.zip

岩土工程中随机裂隙网络注浆模型及其应用：不同压力下注浆效果的研究: 内容概要：本文详细介绍了三种注浆模型——随机裂隙网络注浆模型、基于两相达西定律的注浆模型、基于层流和水平集的注浆扩散模型。首先，随机裂隙网络注浆模型基于地质学原理，模拟裂隙网络发育的实际地质情况，在不同注浆压力下进行注浆作业，以增强地基稳定性和提高承载能力。其次，基于两相达西定律的注浆模型利用数学公式模拟裂隙网络中的流体输送过程，适用于裂隙网络地质条件下的注浆效果分析。最后，基于层流和水平集的注浆扩散模型通过引入层流特性和水平集方法，更准确地模拟注浆过程中的扩散过程。文中还讨论了不同注浆压力对注浆效果的影响，并提出了优化建议。适合人群：从事岩土工程、地基加固等相关领域的工程师和技术人员。使用场景及目标：①帮助工程师选择合适的注浆模型和注浆压力；②为实际工程项目提供理论支持和技术指导；③提升地基加固的效果和效率。其他说明：文章强调了在实际应用中需要结合地质条件、裂隙网络特点等因素进行综合分析，以达到最佳注浆效果。同时，鼓励不断创新注浆工艺和方法，以满足日益增长的地基加固需求。

COMSOL Multiphysics 5.5与6.0版本Ar棒板粗通道流注放电仿真的电子特性分析: 内容概要：本文详细比较了COMSOL Multiphysics软件5.5和6.0版本在模拟Ar棒板粗通道流注放电现象方面的异同。重点探讨了不同版本在处理电子密度、电子温度、电场强度以及三维视图等方面的优缺点。文中不仅介绍了各版本特有的操作方式和技术特点，还提供了具体的代码实例来展示如何进行精确的仿真设置。此外，文章还讨论了网格划分、三维数据提取和电场强度后处理等方面的技术难点及其解决方案。适合人群：从事等离子体物理研究的专业人士，尤其是熟悉COMSOL Multiphysics软件并希望深入了解其最新特性的研究人员。使用场景及目标：帮助用户选择合适的COMSOL版本进行高效、精确的等离子体仿真研究，特别是在处理复杂的Ar棒板粗通道流注放电现象时提供指导。其他说明：文章强调了在实际应用中，选择COMSOL版本不仅要考虑便捷性和视觉效果，还需兼顾仿真精度和可控性。

嵌入式八股文面试题库资料知识宝典-C and C++ normal interview_8.doc.zip: 嵌入式八股文面试题库资料知识宝典-C and C++ normal interview_8.doc.zip

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

【Lucene3.0 初窥】Lucene体系结构概述

评论

发表评论

相关推荐

【Lucene3.0 初窥】索引文件格式(2)：文件结构总体框架

【Lucene3.0 初窥】索引文件格式(1)：预备知识

【Lucene3.0 初窥】索引文件格式(5)：posting数据[.frq/.prx]

【Lucene3.0 初窥】索引文件格式(4)：dictionary数据[.tii/.tis]

【Lucene3.0 初窥】索引文件格式(3)：Field数据[.fdx/.fdt/.fnm]

【Lucene3.0 初窥】索引创建(6)：关闭IndexWriter

【Lucene3.0 初窥】索引创建(4)：DocumentWriter 处理流程三

【Lucene3.0 初窥】索引创建(5)：索引数据池及内存数据细节

【Lucene3.0 初窥】索引创建(3)：DocumentWriter 处理流程二

【Lucene3.0 初窥】索引创建(2)：DocumentWriter 处理流程一

【Lucene3.0 初窥】索引创建(1)：IndexWriter索引器

【Lucene3.0 初窥】数据源内存组织结构—Document/Field

【Lucene3.0 初窥】文本分析器Analyzer

《Introduce to IR》索引创建

《Introduce to IR》布尔检索模型

【Lucene3.0 初窥】全文检索的基本原理

最近访客更多访客>>