开发自己的搜索引擎完成了一段时间了,现在准备开始梳理一下思路,把以前的总结一下,为以后做真正的“谷歌”埋下伏笔,呵呵。。。。。。
一。Lucene的下载
牛逼的Apache旗下的Lucene,呵呵,无人不知啊,http://lucene.apache.org/,去这个地址自己下载,别说不会Dowmload
二.使用Lucene建立索引
将下载下来的包解压,把里面的Core,memory,analyzer啥的都拿出来,配置到自己的Eclipse上面,下面的事情就是写代码了。
package com.dreamers.creatindex;
import java.io.File;
import java.util.ArrayList;
import org.apache.lucene.analysis.Analyzer;
import org.apache.lucene.document.Document;
import org.apache.lucene.document.Field;
import org.apache.lucene.index.IndexWriter;
import org.apache.lucene.store.FSDirectory;
import org.dom4j.DocumentException;
import org.wltea.analyzer.lucene.IKAnalyzer;
import com.dreamers.xml.*;
import com.dreamers.read.*;
/**
* @category 创建所有XML索引
* @author bird
*
*/
public class CreatIndex {
private String INDEX_STORE_PATH ;
//创建索引
@SuppressWarnings("deprecation")
public void creatIndex(){
try{
GetPath path = new GetPath();
INDEX_STORE_PATH = path.getIndexPath();
File file = new File(INDEX_STORE_PATH);
Analyzer analyzer = new IKAnalyzer();
XmlReader xml = new XmlReader();
FSDirectory directory = FSDirectory.open(file);
IndexWriter writer = new IndexWriter(directory, analyzer, true,IndexWriter.MaxFieldLength.LIMITED);
ArrayList<String> lisId = xml.getId();
ArrayList<String> lisTitle = xml.getTitle();
ArrayList<String> lisKeyWords = xml.getKeyWords();
ArrayList<String> lisKind = xml.getKind();
ArrayList<String> lisDescribe = xml.getDescribe();
ArrayList<String> lisDate = xml.getDate();
ArrayList<String> lisUrl = xml.getUrl();
ArrayList<String> lisAuthor = xml.getAuthor();
ArrayList<String> lisPublisher = xml.getPublisher();
//System.out.println(lisUrl.get(5));
for (int i = 0; i < xml.getCount();i++){
Document doc = new Document();
//为ID创建Field
Field field = new Field("id",lisId.get(i),Field.Store.YES,Field.Index.NOT_ANALYZED );
doc.add(field);
//为title创建索引
field = new Field("title",lisTitle.get(i),Field.Store.YES,Field.Index.ANALYZED);
doc.add(field);
//为keywords创建索引
field = new Field("keywords",lisKeyWords.get(i),Field.Store.YES,Field.Index.ANALYZED);
doc.add(field);
//为kind创建索引
field = new Field("kind",lisKind.get(i),Field.Store.YES,Field.Index.NOT_ANALYZED);
doc.add(field);
//为describe创建索引
field = new Field("describe",lisDescribe.get(i),Field.Store.YES,Field.Index.ANALYZED);
doc.add(field);
//为data创建索引
field = new Field("date",lisDate.get(i),Field.Store.YES,Field.Index.NOT_ANALYZED);
doc.add(field);
//为URL创建索引
field = new Field("url",lisUrl.get(i),Field.Store.YES,Field.Index.NOT_ANALYZED);
doc.add(field);
//为author创建索引
field = new Field("author",lisAuthor.get(i),Field.Store.YES,Field.Index.NOT_ANALYZED);
doc.add(field);
//为publisher创建索引
field = new Field("publisher",lisPublisher.get(i),Field.Store.YES,Field.Index.NOT_ANALYZED);
doc.add(field);
}
writer.addDocument(doc);
}
writer.close();
//directory.close();
System.out.println("索引创建完毕");
} catch (Exception e){
e.printStackTrace();
}
}
public static void main(String [] args) throws DocumentException{
CreatIndex index = new CreatIndex();
index.creatIndex();
}
}
这里不多说,最上面的每个list里面都藏有巨大的信息,都是一些字符串,就当是放到容器里的字符窜吧,然后下面的建立索引的过程都是一样的,代码比较短,就不需要什么注释了,呵呵
分享到:
相关推荐
《Lucene搜索引擎开发权威经典》是一本深入探讨搜索引擎技术的专著,主要聚焦于开源的全文检索库——Apache Lucene。这本书是学习和理解搜索引擎工作原理以及如何利用Lucene进行开发的重要参考资料。Lucene是一个高...
《基于Ruby+Java搜索引擎原理与实现》是一部深入探讨搜索引擎技术的书籍,虽然只涵盖了前三个章节,但已足以让我们对搜索引擎的基本运作有初步的理解。在本文中,我们将围绕Ruby和Java这两种编程语言如何应用于搜索...
《解密搜索引擎7-9章》是针对搜索引擎技术实践的一份深入学习资料,主要基于Lucene和Java这两个关键工具进行讲解。本章节涵盖了搜索引擎的核心概念、实现原理以及优化技巧,对于想深入了解搜索引擎工作原理和应用的...
Apache Lucene就是这样一款强大的开源全文搜索引擎库,它为开发者提供了构建自定义搜索引擎所需的全部工具。这篇博客将带你初探Lucene,通过一个初级的LuceneDemo来了解其基本概念和操作。 首先,让我们了解一下...
- 10月16日至10月23日,建立索引并编写搜索实现类,设计搜索结果显示页面的初步框架。 - 10月24日至10月31日,加入中文分词器,完成数据库信息的添加,编写数据访问和实体类。 - 11月1日至11月7日,整合Tika实现...
这里会利用倒排索引技术,这是一种高效的搜索引擎索引方法,通过建立从词汇到包含该词汇的文档列表的映射,实现快速的搜索和定位。索引器将处理后的信息写入索引数据库,为后续的搜索查询提供支持。 搜索功能模块是...
《Lucene in Action》是一本深受开发者欢迎的书籍,专注于介绍Apache Lucene这款强大的全文搜索引擎库。这本书的中文版前5章为我们揭示了Lucene的基础知识和核心概念,对于理解和应用Lucene至关重要。以下是这些章节...
Elasticsearch是用Java开发的,并作为Apache许可条款下的开放源码发布,是当前流行的企业级搜索引擎。设计用于云计算中,能够达到实时搜索,稳定,可靠,快速,安装使用方便。 我们建立一个网站或应用程序,并要...
#### 八、集成LUCENE全文搜索引擎 - **创建搜索索引**:建立索引以加速搜索过程。 - **搜索引擎配置**:定制搜索结果的排序和过滤规则。 通过以上介绍,可以看出OpenCMS不仅具备强大的内容管理能力,还能通过扩展...