`

转 Lucene之Hello world

阅读更多
首先,确认要建立索引的文件。在E:\lucene\test下放置所有要建立索引的文件。
a.txt b.txt c.txt d.txt 内容如图:



选择开发工具和开发包开发工具
开发工具
Eclipse 3.2 
开发包
    lucene-demos-1.9-final.jar
    lucene-core-1.9-final.jar
4.6 Lucene实例开发
打开Eclipse,新建一个Java工程,工程有3个类,其中
Constants.java主要是用来存储一些常量的类,如索引文件路径和索引的存放位置;
LuceneIndex.java是用于对文件建闰索引的类;
LuceneSearch.java则是用于检索索引的类。
另外,工程还引入开发包lucene-demos-1.9-final.jar  lucene-core-1.9-final.jar
4.6.1 建立索引LuceneIndex.java
Constants.java创建
package test;
public class Constants {
    public final static String INDEX_FILE_PATH = "e:\\lucene\\test"; //索引的文件的存放路径
    public final static String INDEX_STORE_PATH = "e:\\lucene\\index"; //索引的存放位置
}

LuceneIndex.java创建
package test;

import java.io.BufferedReader;
import java.io.File;
import java.io.FileInputStream;
import java.io.InputStreamReader;
import java.io.Reader;
import java.util.Date;

import org.apache.lucene.analysis.standard.StandardAnalyzer;
import org.apache.lucene.document.Document;
import org.apache.lucene.document.Field;
import org.apache.lucene.index.IndexWriter;

public class LuceneIndex {
    public static void main(String[] args) throws Exception {
        // 声明一个对象
        LuceneIndex indexer = new LuceneIndex();
        // 建立索引
        Date start = new Date();
        indexer.writeToIndex();
        Date end = new Date();
       
        System.out.println("建立索引用时" + (end.getTime() - start.getTime()) + "毫秒");

        indexer.close();
    }

    public LuceneIndex() {
        try {
            writer = new IndexWriter(Constants.INDEX_STORE_PATH,
                    new StandardAnalyzer(), true);
        } catch (Exception e) {
            e.printStackTrace();
        }
    }

    // 索引器
    private IndexWriter writer = null;

    // 将要建立索引的文件构造成一个Document对象,并添加一个域"content"
    private Document getDocument(File f) throws Exception {
        Document doc = new Document();

        FileInputStream is = new FileInputStream(f);
        Reader reader = new BufferedReader(new InputStreamReader(is));
        doc.add(Field.Text("contents", reader));

        doc.add(Field.Keyword("path", f.getAbsolutePath()));
        return doc;
    }

    public void writeToIndex() throws Exception {
        File folder = new File(Constants.INDEX_FILE_PATH);
        if (folder.isDirectory()) {
            String[] files = folder.list();
            for (int i = 0; i < files.length; i++) {
                File file = new File(folder, files[i]);
                Document doc = getDocument(file);
                System.out.println("正在建立索引 : " + file + "");
                writer.addDocument(doc);
            }
        }
    }

    public void close() throws Exception {
        writer.close();
    }

}
4.6.2 建立搜索LuceneSearch.java

LuceneSearch.java创建
package test;

import java.util.Date;

import org.apache.lucene.analysis.standard.StandardAnalyzer;
import org.apache.lucene.document.Document;
import org.apache.lucene.index.IndexReader;
import org.apache.lucene.queryParser.QueryParser;
import org.apache.lucene.search.Hits;
import org.apache.lucene.search.IndexSearcher;
import org.apache.lucene.search.Query;

public class LuceneSearch {

    public static void main(String[] args) throws Exception {
        LuceneSearch test = new LuceneSearch();
        Hits h = null;
        h = test.search("中国");
        test.printResult(h);
        h = test.search("人民");
        test.printResult(h);
        h = test.search("共和国");
        test.printResult(h);
    }

    public LuceneSearch() {
        try {
            searcher = new IndexSearcher(IndexReader
                    .open(Constants.INDEX_STORE_PATH));
        } catch (Exception e) {
            e.printStackTrace();
        }
    }

    // 声明一个IndexSearcher对象
    private IndexSearcher searcher = null;

    // 声明一个Query对象
    private Query query = null;

    public final Hits search(String keyword) {
        System.out.println("正在检索关键字 : " + keyword);
        try {
            // 将关键字包装成Query对象
            query = QueryParser.parse(keyword, "contents",
                    new StandardAnalyzer());

            Date start = new Date();
            Hits hits = searcher.search(query);
            Date end = new Date();
            System.out.println("检索完成,用时" + (end.getTime() - start.getTime())
                    + "毫秒");
            return hits;
        } catch (Exception e) {
            e.printStackTrace();
            return null;
        }
    }

    public void printResult(Hits h) {
        if (h.length() == 0) {
            System.out.println("对不起,没有找到您要的结果。");
        } else {
            for (int i = 0; i < h.length(); i++) {
                try {
                    Document doc = h.doc(i);
                    System.out.print("这是第" + i + "个检索到的结果,文件名为:");
                    System.out.println(doc.get("path"));
                } catch (Exception e) {
                    e.printStackTrace();
                }
            }
        }
        System.out.println("--------------------------");
    }

}
4.6.3 结果分析
运行LuceneIndex.java
控制区打印结果如下:
正在建立索引 : e:\lucene\test\a.txt
正在建立索引 : e:\lucene\test\b.txt
正在建立索引 : e:\lucene\test\c.txt
正在建立索引 : e:\lucene\test\d.txt
建立索引用时94毫秒

打开E:\lucene\index目录,可以看到刚才建立的索引,如图:

运行搜索
索引已经成功建立,现在分别以“中华”、“人民”,“共和国”为关键字来在索引中进行检索;
在Eclipse中运行LuceneSearch.java
可以看到控制区输出了检索结果如下:
正在检索关键字 : 中国
检索完成,用时16毫秒
这是第0个检索到的结果,文件名为:e:\lucene\test\b.txt
--------------------------
正在检索关键字 : 人民
检索完成,用时0毫秒
这是第0个检索到的结果,文件名为:e:\lucene\test\a.txt
这是第1个检索到的结果,文件名为:e:\lucene\test\c.txt
这是第2个检索到的结果,文件名为:e:\lucene\test\b.txt
--------------------------
正在检索关键字 : 人
检索完成,用时15毫秒
这是第0个检索到的结果,文件名为:e:\lucene\test\a.txt
这是第1个检索到的结果,文件名为:e:\lucene\test\c.txt
这是第2个检索到的结果,文件名为:e:\lucene\test\b.txt
--------------------------
首先,搜索是一种服务。在本例中,仅是通过一段代码来演示了API的使用。这与真正的服务性搜索还相去甚远。比如用户的界面的友好性、检索结果的显示、用户响应时间长短、关键字分析的能力等,这些都是评价一个搜索引擎好坏的参数。
其次,对于一个简单的搜索引擎来说,索引只要存放在某个特定的硬盘上就可以了。如本例中,我们使用一个目录来作为索引的存放位置。然而,如果要构建一个大型的集群化的搜索引擎,每天光日志的大小就有上百G,更不用说索引文件的大小了。很显然不可像本例中那样使用某个目录来存放,而应当采用分布式存储的方式,并利用存储网络技术进行连接。
当然,对于非专业型电子商务的网站来说,搜索只是它所提供一个特性,并非一定要构建什么大型集群化搜索引擎。
  • 大小: 29.4 KB
分享到:
评论

相关推荐

    Lucene之Helloworld

    《Lucene之HelloWorld》 在信息技术领域,搜索引擎是一个不可或缺的部分,而Apache Lucene作为一款高性能、全文本搜索库,为开发者提供了强大的文本检索能力。本文将深入探讨如何使用Lucene进行基本操作,通过...

    lunece入门之HelloWorld

    《Lucene入门之HelloWorld》 Lucene是一个高性能、全文本搜索库,由Apache软件基金会开发并维护。它提供了一个简单但功能强大的API,用于在各种应用中实现文本的索引和搜索。这篇博文将带你走进Lucene的世界,通过...

    Lucene常用的Demo

    本篇文章将深入探讨Lucene的几个常见示例,包括`LuceneDemo`、`LuceneZJ`、`Lucene_HelloWorld`,帮助初学者快速理解Lucene的基本操作。 1. **Lucene_HelloWorld** 这个示例是入门Lucene的首选,它展示了如何创建...

    lucene:lucene构建索引,从HelloWorld到项目具体使用

    lucene构建索引,从HelloWorld到项目具体使用 ====================项目一:=================================== qianjun.lucene.first ====================项目二:=================================== qianjun....

    Lucene-Demo.rar Lucene分词的demo

    例如,一个英文分词器可能会将句子"Hello World"拆分为"Hello"和"World"两个术语。 在导入这个Demo项目后,开发者可以查看和学习如何实例化分词器、创建索引以及执行搜索。分词器的配置是灵活的,可以根据需求选择...

    lucence入门HelloWorld

    **Lucene 入门教程** Lucene 是一个高性能、全文本搜索库,由Apache软件基金会开发,被广泛应用于各种搜索引擎的构建。它提供了一个高级的、可扩展的、完全免费的搜索程序开发框架,使开发者能够轻松地在自己的应用...

    使用Lucene.net进行全文搜索

    例如,英文Analyzer可能会将“hello world”拆分为“hello”和“world”。 - **创建Document**: 模拟数据库中的记录,Document包含字段(Field),如标题、正文等,每个字段可以指定是否被索引和存储。 - **添加...

    全文搜索Lucene&ElasticSearch-新版.doc

    入门Lucene时,可以创建一个简单的HelloWorld程序,使用Lucene提供的API如IndexWriter进行索引的创建和维护,以及IndexSearcher进行索引的搜索。在Java环境中,需要引入相关的Lucene库,如lucene-analyzers-common、...

    lucene(HelloWord)

    《Lucene:初识搜索引擎库的“Hello World”》 Lucene,作为Apache软件基金会的顶级项目,是一款高性能、全文本检索引擎库,被广泛应用于各类搜索引擎和信息检索系统中。它提供了完整的搜索功能,包括索引、查询、...

    Annotated Lucene 中文版 Lucene源码剖析

    - **Hello World!** - 创建一个简单的索引,并进行基本的查询操作,这是入门Lucene的第一步。 - **Lucene Roadmap**: - 了解Lucene的发展历程及其未来规划对于开发者来说非常重要。 #### 索引文件结构 - **...

    lucene-入门

    要使用 Lucene 进行一个简单的搜索应用(Hello World),首先需要创建一个索引库,并将一些文档索引到这个库中。然后,可以通过构建查询来搜索这个索引库中的内容。具体的步骤如下: 1. **创建一个 IndexWriter ...

    elk入门教程,程序员的helloworld

    Elasticsearch(简称ES)是一款强大的开源搜索引擎,它基于Apache Lucene构建,提供了一种分布式、实时、高可用的文件存储和搜索能力。其核心特性包括: 1. **分布式实时文件存储**:Elasticsearch能够分布式地存储...

    lucene项目代码

    项目描述中的“Helloworld”通常代表入门级别的示例,可能包含以下步骤: 1. **创建索引**:首先,你需要创建一个索引,将数据(例如,文件内容)转换为Lucene可以理解和查询的格式。这涉及到读取文件,创建文档...

    Lucene演示

    这个"Lucene演示"可能是为了帮助初学者理解和使用Lucene进行基本操作的一个实例,例如"HelloWorld"式的简单演示。 在开始深入Lucene之前,我们先理解一下全文搜索引擎的基本概念。全文搜索引擎不同于传统的数据库...

    lucene学习,lucene对txt,pdf,html格式的学习

    在给定的代码中,`Index`方法创建了一个包含100条记录的索引,每条记录的`name`字段从`name1`到`name100`,`value`字段都为`"Hello, World!"`。然后,`Search`方法使用`QueryParser`解析查询`name*`,并打印出所有...

    lucene相关文档

    - **查询词**:单个词或词组,词组用双引号包围,如 "hello world"。 - **查询域**:指定查询的字段,如 `title:"Do it right"`。 - **通配符查询**:使用 `?` 表示一个任意字符,`*` 表示多个任意字符,但它们不...

    Struts Web设计与开发大全

    17章:Hello World类和Ant脚本及基本Web应用结构和Ant脚; 18章:Hello World类和测试类以及Struts测试工程; 19章:Struts与Hibernate结合应用; 20章:lucene1全文检索应用,直接复制到tomcat的webapps目录下...

    ES搜索快速入门

    CreateIndexResponse response = client.admin().indices().create(Requests.createIndexRequest("helloworld")).actionGet(); System.out.println("索引创建结果:" + response.isAcknowledged()); } catch ...

    lucense demo

    要搭建一个Lucene 4.0的HelloWorld Demo,我们需要以下步骤: 1. 引入库:首先,在项目中引入Lucene和IK分词器的依赖。这通常通过Maven或Gradle来完成,添加相应的依赖配置。 2. 创建索引:这是Lucene的第一步,...

    Java_凯文·坦斯例子的放大版.zip

    学习Java时,通常会从简单的"Hello, World!"程序开始,逐步过渡到更复杂的数据结构、控制流、异常处理和文件I/O。 接下来,进入Apache Lucene的世界。Lucene提供了索引和搜索文档的基本工具,包括分词器(tokenizer...

Global site tag (gtag.js) - Google Analytics