`
tedeyang
  • 浏览: 326081 次
  • 性别: Icon_minigender_1
  • 来自: 上海
社区版块
存档分类
最新评论

lucene搜索引擎简单应用

阅读更多



还用lucene架了个搜索引擎,对pdf进行全文搜索(联合pdfbox)。

核心类是一个Agent,使用开源的庖丁中文分词器

代码:

 

QUOTE:
package gov.jsgs.ssgs.service;

import gov.jsgs.ssgs.form.PdfForm;
import gov.jsgs.ssgs.model.Ssgs_pdfModel;

import java.io.IOException;
import java.util.ArrayList;
import java.util.List;

import net.paoding.analysis.analyzer.PaodingAnalyzer;

import org.apache.lucene.analysis.Analyzer;
import org.apache.lucene.document.Document;
import org.apache.lucene.index.CorruptIndexException;
import org.apache.lucene.index.IndexReader;
import org.apache.lucene.index.IndexWriter;
import org.apache.lucene.index.StaleReaderException;
import org.apache.lucene.index.Term;
import org.apache.lucene.queryParser.ParseException;
import org.apache.lucene.queryParser.QueryParser;
import org.apache.lucene.search.Hits;
import org.apache.lucene.search.IndexSearcher;
import org.apache.lucene.search.Query;
import org.apache.lucene.search.Searcher;
import org.apache.lucene.store.Directory;
import org.apache.lucene.store.FSDirectory;
import org.apache.lucene.store.LockObtainFailedException;

import common.Logger;

/**
 * 搜索引擎代理,目前设置为在c:\pdf_index目录下保存索引,可以通过setIndexDir()修改.
 *  <p>
 *  <b>注意:必须用单例模式运行,使用init()初始化,destroy()释放资源</b>
 *
 * @author tedeyang
 *
 */
public class LuceneAgent {

    private static Logger log = Logger.getLogger(LuceneAgent.class);
    static Object lock = new Object();
    Analyzer analyzer = null;

    Directory ramDir = null;

    IndexWriter writer = null;

    String indexDir = "c:/pdf_index";

    IndexReader reader;

    QueryParser parser;

    Searcher searcher;

    public void init() throws CorruptIndexException, LockObtainFailedException,
            IOException {
        log.info("初始化Lucene搜索引擎...");
        log.debug("初始化分词器...");
        analyzer = new PaodingAnalyzer();
        ramDir = FSDirectory.getDirectory(indexDir);
        if (ramDir.fileExists("write.lock")) {
            ramDir.deleteFile("write.lock");
            log.debug("清除引擎文件锁 ...");
        }
        try {
            writer = new IndexWriter(ramDir, analyzer, false);
        } catch (Exception e) {
            writer = new IndexWriter(ramDir, analyzer, true);
        }
        reader = IndexReader.open(ramDir);
        parser = new QueryParser(LucenePDFDocument.CONTENT, analyzer);
        searcher = new IndexSearcher(ramDir);

    }

    public void destroy() {
        log.info("关闭搜索引擎...");
        try {
            reader.close();
        } catch (IOException e) {
            e.printStackTrace();
        }
        try {
            writer.close();
        } catch (CorruptIndexException e) {
            e.printStackTrace();
        } catch (IOException e) {
            e.printStackTrace();
        }
    }

    public String getIndexDir() {
        return indexDir;
    }

    /**
     * @param indexDir
     *            存放索引文件的目录,默认c:/pdf_index
     */
    public void setIndexDir(String indexDir) {
        this.indexDir = indexDir;
    }

    public void resetIndex() {

    }

    /**
     * 添加索引文档
     *
     * @param doc
     * @throws CorruptIndexException
     * @throws IOException
     */
    public void addPdf(Document doc) throws CorruptIndexException, IOException {
        writer.addDocument(doc, analyzer);
        writer.optimize();
        writer.flush();
    }

    /**
     * 添加pdf文件索引。完成后会关闭pdf的inputstream
     *
     * @param pdf
     * @throws CorruptIndexException
     * @throws IOException
     */
    public void addPdf(Ssgs_pdfModel pdf) throws CorruptIndexException,
            IOException {
        writer.addDocument(LucenePDFDocument.getDocument(pdf), analyzer);
        writer.optimize();
        writer.flush();
    }

    /**
     * 查询
     *
     * @param keyword
     * @return list[PdfForm]
     * @throws ParseException
     * @throws IOException
     */
    public List search(String keyword) throws ParseException, IOException {
        if (keyword == null || keyword.matches("^\\s*$")) {
            return null;
        }
        Hits hits = null;
        synchronized (lock) {
            Query query = parser.parse(keyword).rewrite(reader);
            hits = searcher.search(query);
        }
        List pdfs = new ArrayList(hits.length());
        for (int i = 0; i < hits.length(); i++) {
            PdfForm pdf = new PdfForm();
            pdf.setFile_name(hits.doc(i).get(LucenePDFDocument.FILE_NAME));
            pdf.setId(Integer.parseInt(hits.doc(i).get(LucenePDFDocument.ID)));
            try {
                pdf.setM_time( hits.doc(i).get( LucenePDFDocument.MODIFIED));
            } catch (Exception e) {
                pdf.setM_time(null);
            }
            pdf.setSummary(hits.doc(i).get(LucenePDFDocument.SUMMARY));
            pdfs.add(pdf);
        }
        return pdfs;
    }

    /**
     * 根据唯一主键删除索引
     *
     * @param id
     * @throws StaleReaderException
     * @throws CorruptIndexException
     * @throws LockObtainFailedException
     * @throws IOException
     */
    public synchronized void delete(String id) throws StaleReaderException,
            CorruptIndexException, LockObtainFailedException, IOException {
        Term term = new Term(LucenePDFDocument.ID, id);
        synchronized (lock) {
            writer.deleteDocuments(term);
            writer.optimize();
            writer.flush();
        }
    }
}

 

 

分享到:
评论
1 楼 gongji 2010-05-04  
有机会得研究研究lucene了

相关推荐

    lucene搜索引擎项目

    "lucene搜索引擎项目"可能包含了从零开始构建一个简单搜索引擎的全程,从数据读取、索引构建,到查询处理和结果展示。这对于初学者来说,是一个极好的实践平台。 通过深入研究这个项目,开发者可以了解Lucene的...

    lucene搜索引擎demo

    在这个“lucene搜索引擎demo”中,我们将会探讨如何利用Lucene实现一个简单的搜索引擎,包括数据抓取、分词处理以及源码分析。 首先,让我们了解一下Lucene的基本工作原理。Lucene的核心在于创建倒排索引(Inverted...

    Lucene搜索引擎开发权威经典

    总的来说,这本书是学习和掌握Lucene搜索引擎开发的优秀资源,虽然在专业深度上可能有所欠缺,但通过阅读和实践书中的例子,读者可以快速掌握Lucene的基本操作和应用,为进一步深入学习和开发打下坚实基础。...

    Solr Elasticsearch lucene 搜索引擎

    Solr、Elasticsearch和Lucene是三个在搜索引擎领域中至关重要的技术,它们共同构建了现代数据检索的基础架构。下面将分别对这三个组件进行详细解释,并探讨它们之间的关系。 **Lucene** Lucene是一个高性能、全文本...

    基于lucene 的简单搜索引擎.rar

    **基于Lucene的简单搜索引擎构建详解** Lucene是Apache软件基金会的一个开源项目,它是一个高性能、全文本搜索库,提供了一个强大的信息检索引擎框架。这个压缩包“基于lucene 的简单搜索引擎.rar”很可能是为了...

    Lucene搜索引擎1

    在"Lucene搜索引擎1"这个主题中,我们将深入探讨Lucene的基本概念、核心组件以及如何使用它来构建一个简单的搜索引擎。 首先,Lucene的核心功能是索引和搜索。它能够将非结构化的文本数据(如网页、文档等)转化...

    lucene+api搜索引擎引工具源码

    通过研究这个 C#.NET 版本的 Lucene 搜索引擎源码,开发者可以学习如何在 .NET 应用中集成全文搜索功能,了解 Lucene API 的用法,以及如何根据具体需求定制搜索引擎。这不仅对提升搜索体验有帮助,也有助于深入理解...

    基于java的Lucene全文搜索引擎资源简单实例下载

    **基于Java的Lucene全文搜索引擎资源简单实例** Lucene是一个由Apache软件基金会开发的开源全文检索库,它为Java开发者提供了强大的文本搜索功能。Lucene是高性能、可扩展的信息检索库,可以集成到各种Java应用中,...

    基于LUCENE的搜索引擎的设计与实现源代码

    基于LUCENE的搜索引擎可应用于各种场景,如企业内部知识库的检索、网站内容搜索、邮件搜索等。通过学习和掌握LUCENE,开发者能够快速构建出满足特定需求的高效搜索引擎。 总结,LUCENE作为一个强大的全文搜索库,为...

    Lucene搜索引擎开发权威经典源代码

    总之,《Lucene搜索引擎开发权威经典》是一本宝贵的资源,它的源代码实例将帮助开发者更好地理解和应用Lucene,为各种信息检索需求提供强大支持。在阅读和研究这些代码时,你将逐步掌握搜索引擎的核心技术,提升自己...

    Lucene搜索引擎开发权威经典11-14.rar

    《Lucene搜索引擎开发权威经典11-14》是一本深度剖析Lucene搜索引擎技术的专业书籍,专注于讲解如何利用Lucene进行高效、精准的全文检索。该书以Lucene的2.1版本为背景,深入浅出地介绍了从基础概念到实际开发应用的...

    lucene 搜索引擎小例子

    通过这个简单的 Lucene 示例,你可以了解搜索引擎的基本操作,并为进一步学习 Lucene 的高级特性和优化技巧打下基础。随着深入,你还可以探索多字段搜索、布尔查询、短语查询、模糊匹配、近似搜索、自定义评分函数等...

    lucene搜索引擎开发权威经典 源码包

    《Lucene搜索引擎开发权威经典》源码包是一个深入理解并掌握Apache Lucene的宝贵资源,它将Lucene的核心组件和功能以模块化的形式呈现,便于开发者逐个学习和研究。Lucene是一个开源的全文检索库,它提供了高效的、...

    基于Lucene的小型搜索引擎

    《基于Lucene的小型搜索引擎构建详解》 ...这样的实践项目不仅有助于理解搜索引擎的工作原理,也为实际的网页搜索应用提供了基础框架。对于学习和研究搜索引擎技术,或者进行相关项目的开发,都是极好的参考和起点。

    LUCENE的搜索引擎例子

    本篇文章将深入探讨如何在B/S(浏览器/服务器)架构下利用Lucene实现一个简单的搜索引擎实例。 首先,我们需要了解Lucene的核心概念。Lucene提供了一套完整的文本检索框架,包括索引构建、查询解析、评分以及结果...

    Lucene+Nutch搜索引擎开发.王学松源代码

    本篇将围绕“Lucene+Nutch搜索引擎开发”这一主题,深入探讨王学松源代码,帮助读者理解并掌握这两项技术的核心概念和应用。 首先,Lucene是一个高性能、全文检索库,它提供了一个简单的API,使得开发者能够方便地...

    《开发自己的搜索引擎-Lucene 2.0 Heritrix》cd(全)(下载地址)

    根据提供的文件信息,我们可以深入探讨与“开发自己的搜索引擎-Lucene 2.0 Heritrix”相关的知识点,主要包括Lucene 2.0和Heritrix的基本概念、特点以及如何利用它们来构建一个简单的搜索引擎。 ### 一、Lucene 2.0...

    开发自己的搜索引擎《lucene2.0+heritrix》一书对应的源码资料

    在《开发自己的搜索引擎》一书中,通过`ch2-lucene入门小例子`,读者可以了解到如何使用Lucene 2.0创建简单的搜索引擎,例如建立索引、执行搜索等基本操作。而`myReserch-可用的网络搜索引擎`可能包含一个完整的搜索...

Global site tag (gtag.js) - Google Analytics