采用技术:Jsp+Servlet+Lucene3.0+IK Analyzer3.0
感谢JavaEye的各位前辈,让小弟我能够顺利完成我的毕业设计。
用到的中文分词器,当然得感谢IK的作者林良益前辈。
本项目采用了百度的样式集-所以看起来像山寨百度的一个搜索引擎,先看下效果先:
(程序源码:见附件MySearch.rar,相关库文件:请看 中文搜索引擎-Lucene3.0+IK Analyzer3.2相关jar包)
本系统的开发环境:Tomcat6.0和Myeclipse Bule GA 6.5
4.系统实现
索引流程:
1.创建一个IndexWriter创建索引类,指定好索引文件的存放路径,分词器analyzer
2.新建一个索引文档Document doc
3.将要索引的文件的文件名称,文件存放路径,文件内容,存入索引文档doc中
4.再通过IndexWriter将建立好的索引文档写入硬盘中。
5.索引文件优化,将其合并为复合索引文件。
6.关闭IndexWriter
详细代码:
//创建一个索引写入器
IndexWriter writer = new IndexWriter(FSDirectory.open(INDEX_DIR),
analyzer,
true,
IndexWriter.MaxFieldLength.LIMITED);
//创建一个lucene文档
Document doc = new Document();
//为文档添加域,设定该域是否需要分析、存储、索引
doc.add(new Field("title",n,Field.Store.YES,Field.Index.ANALYZED));
//文档路径
doc.add(new Field("path", f.getPath(), Field.Store.YES, Field.Index.NOT_ANALYZED));
//文档文本内容
doc.add(new Field("contents",readFile(f),Field.Store.YES,
Field.Index.ANALYZED));
//将创建好的文档添加到writer的写入队列中,然后写入
writer.addDocument(doc);
//优化索引,就是将索引合并
writer.optimize();
//关闭索引写入器
writer.close();
这里实现了将一个文档转化为索引格式,写到lucene的索引文件中。
搜索流程
- IndexReader打开索引文件,读取并打开指向索引文件的流。
- 用户输入查询语句
- 将查询语句转换为查询对象Query对象树
- 构造Weight对象树,用于计算词的权重Term Weight,也即计算打分公式中与仅与搜索语句相关与文档无关的部分。
- 构造Scorer对象树,用于计算打分(TermScorer.score())。
- 在构造Scorer对象树的过程中,其叶子节点的TermScorer会将词典和倒排表从索引中读出来。
- 构造SumScorer对象树,其是为了方便合并倒排表对Scorer对象树的从新组织,它的叶子节点仍为TermScorer,包含词典和倒排表。此步将倒排表合并后得到结果文档集,并对结果文档计算打分公式中的蓝色部分。打分公式中的求和符合,并非简单的相加,而是根据子查询倒排表的合并方式(与或非)来对子查询的打分求和,计算出父查询的打分。
- 将收集的结果集合及打分返回给用户。
详细代码
//创建一个搜索器IndexSearcher,设定好索引文件的路径
IndexSearcher searcher = new IndexSearcher(FSDirectory.open(new File(index)), true);
//分词器的定义,IKAnalyzer默认的参数是为false,false为采用最细粒度分词,而true则为最大长度分词
Analyzer analyzer= new IKAnalyzer(true);
//IKQueryParser是生成语法树,然后再用语法树去搜索
Query query =IKQueryParser.parse(FIELD_NAME,queryContent);
//scorer标识要高亮的关键字
QueryScorer scorer = new QueryScorer(query, FIELD_NAME);
//高亮器的定义
Highlighter highlighter = new Highlighter(new SimpleHTMLFormatter("<EM>","</EM>"),scorer);
//返回相关度最高的前几条记录
TopScoreDocCollector collector = TopScoreDocCollector.create(
5 * hitsPerPage, false);
//执行搜索
searcher.search(query, collector);
//将分数最高的前几条记录放入collector中
ScoreDoc[] hits = collector.topDocs().scoreDocs;
Document doc = searcher.doc(hits[i].doc);
//获取结果集,这个结果集用于在页面输出
List<IndexDoc> indexdoclist=new ArrayList<IndexDoc>();
Indexdoclist.add(doc);
4.1.4.1 pdf文档解析
try{
//首先当做一个URL来装载文件,如果得到异常再从本地文件系统中去装载文件
URL url=new URL(pdfFile);
document=PDDocument.load(url);
//获取PDF的文件名
String fileName=url.getFile();
//以原来PDF的名称来命名新产生的txt文件
if(fileName.length()>4){
File outputFile =new File(fileName.substring(0,fileName.length()-4)+".txt");
textFile=outputFile.getName();
}
}catch(MalformedURLException e){
//如果作为URL装载得到异常则从文件系统装载
document=PDDocument.load(pdfFile);
if(pdfFile.length()>4){
textFile = pdfFile.substring(0,pdfFile.length()-4)+".txt";
}
}
//文件输入流,写入文件导textFile
output = new OutputStreamWriter(new FileOutputStream(textFile),encoding);
//PDFTextStripper来提取文本
PDFTextStripper stripper=null;
stripper =new PDFTextStripper();
//设置是否排序
stripper.setSortByPosition(sort);
//设置起始页
stripper.setStartPage(startPage);
//设置结束页
stripper.setEndPage(endPage);
//调用PDFTextStripper的writeText提取并输出文本
stripper.writeText(document,output);
4.1.4.2doc文档解析
//处理DOC文档格式
InputStream iStream = new BufferedInputStream(new FileInputStream(f));
WordExtractor ex=new WordExtractor(iStream);
String ns=new String(ex.getText());
doc.add(new Field("contents",ns,Field.Store.YES,
Field.Index.ANALYZED));
4.1.4.3docx文档解析
//处理docx文档
Parser parser=new OOXMLParser();
InputStream iStream=new BufferedInputStream(new FileInputStream(f));
OutputStream oStream=new BufferedOutputStream(new FileOutputStream(new File(f.getPath()+".txt")));
ContentHandler iHandler= new BodyContentHandler(oStream);
parser.parse(iStream, iHandler, new Metadata(), new ParseContext());
doc.add(new Field("contents",readFile(
new File(f.getPath()+".txt")),Field.Store.YES,
Field.Index.ANALYZED));
4.1.4.4 html文档解析
StringBuffer text = new StringBuffer();
org.htmlparser.Parser parser = org.htmlparser.Parser.createParser(new String(inputHtml.getBytes(),
"GBK"), "GBK");
// 遍历所有的节点
org.htmlparser.util.NodeList nodes = parser.extractAllNodesThatMatch(new org.htmlparser.NodeFilter() {
public boolean accept(org.htmlparser.Node node) {
return true;
}
});
System.out.println(nodes.size());
for (int i=0;i<nodes.size();i++){
org.htmlparser.Node nodet = nodes.elementAt(i);
text.append(new String(nodet.toPlainTextString().getBytes("GBK"))+"\r\n");
}
4.1.5.1 中文切分词机制
对于中文来说,全文索引首先还要解决一个语言分析的问题,对于英文来说,语句中单词之间是天然通过空格分开的,但亚洲语言的中日韩文语句中的字是一个字紧贴着一个,所有,首先要把语句中按“词”进行索引的话,这个词如何切分出来就是一个很大的问题。
首先,肯定不能用单个字符作为索引单元,否则查“上海”时,不能让含有“海上”也匹配。但一句话:“北京拍照门”,计算机如何按照中文的语言习惯进行切分呢?“北京 拍照门”还是“北 京拍照门”?让计算机能够按照语言习惯进行切分,往往需要机器有一个比较丰富的词库才能够比较准确的识别出语句中的单词。另外一个解决的办法是采用自动切分算法:将单词按照2元语法方式切分出来,比如:"北京拍照门"==>"北京 京拍 拍照 照门"。这样,在查询的时候,无论是查询"北京"还是查询"拍照门",将查询词组按同样的规则进行切分:"北京","拍照照门",多个关键词之间按与"and"的关系组合,同样能够正确地映射到相应的索引中。这种方式对于其他亚洲语言:韩文,日文都是通用的。
基于自动切分的最大优点是没有词表维护成本,实现简单,缺点是索引效率低,但对于中小型应用来说,基于2元语法的切分还是够用的。基于2元切分后的索引一般大小和源文件差不多,而对于英文,索引文件一般只有原文件的30%-40%不同。自动切分与词表切分的具体区别,请见(表4):
表4
|
自动切分 |
词表切分 |
实现 |
实现非常简单 |
实现复杂 |
查询 |
增加了查询分析的复杂程度 |
适于实现比较复杂的查询语法规则 |
存储效率 |
索引冗余大,索引几乎和原文一样大 |
索引效率高,为原文大小的30%左右 |
维护成本 |
无词表维护成本 |
词表维护成本非常高:中日韩等语言需要分别维护。还需要包括词频统计等内容 |
适用领域 |
嵌入式系统:运行环境资源有限 |
分布式系统:无词表同步问题 |
多语言环境: |
无词表维护成本 |
对查询和存储效率要求高的专业搜索引擎 |
4.1.5.2 IK Analyzer 3.2.0中文切词
IK Analyzer采用的是正向迭代最细粒度分词算法,是基于正向最大分词算法的改进算法,将词语切得更加的细致,保证了用户在分词搜索中的召回率。
我们来对比一下两种分词算法,例如:头孢曲松舒巴坦,如果是采用正向最大分词算法的话,它将切为“头孢曲松+舒 +巴 +坦”,而正向迭代最细粒度分词算法,则会在切到头孢曲松这一词的时候再进一轮切词算法从而切出“头孢 +曲松”这两个词,那么正向最细粒度分词算法的结果为:
“头孢曲松 (+头孢 +曲松)) +舒 +巴 +坦”
//分词器的定义,IKAnalyzer默认的参数是为false,false为采用最细粒度分词,而true则为最大长度分词
Analyzer analyzer= new IKAnalyzer(true);
//IKQueryParser是生成语法树,然后再用语法树去搜索
Query query =IKQueryParser.parse(FIELD_NAME,queryContent);
原理:将页面的首页、上一页、下一页、第几页、尾页,不同的按钮通过计算转为计算数据查询的起始位置、查询每页多少条记录,每次按下分页控件上的按钮,都会传查询条件和查询起始位置、查询每页多少条记录三个条件传到后台的java文件中,再调用pagerUtil中的分页查询方法,将查询到的结果返回页面。
注:QueryContent : 用户输入的查询语句
Start:查询的起始位置
Pagersize:分页查询,每页需要查的条数
PagerModel:里面有两个数据 int totalRecords指的是返回本次查询结果的总条数,Collection<IndexDoc> objects指的是分页查询的结果集
页面代码:
<pg:pager url="./IndexSearch" items="${ pagerModel.totalRecords}" export="currentPageNumber=pageNumber" maxPageItems="10">
<pg:param name="qc" value="<%=QueryContent %>"/>
<pg:first>
<a href="${pageUrl}">首页</a>
</pg:first>
<pg:prev>
<a href="${pageUrl }">上一页</a>
</pg:prev>
<pg:pages>
<c:choose>
<c:when test="${currentPageNumber eq pageNumber}">
<font color="red">${pageNumber }</font>
</c:when>
<c:otherwise>
<a href="${pageUrl }">${pageNumber }</a>
</c:otherwise>
</c:choose>
</pg:pages>
<pg:next>
<a href="${pageUrl }">下一页</a>
</pg:next>
<pg:last>
<a href="${pageUrl }">尾页</a>
</pg:last>
</pg:pager>
后台java文件代码:
public List<IndexDoc> getDocs(String qc,int start,int end,IndexSearcher searcher,
ScoreDoc[] hits, Highlighter highlighter,Analyzer analyzer) throws CorruptIndexException, IOException{
//页面显示内容
List<IndexDoc> indexdoclist=new ArrayList<IndexDoc>();
for (int i = start; i < end; i++) {
IndexDoc indexdoc=new IndexDoc();
Document doc = searcher.doc(hits[i].doc);
String path = doc.get(FIELD_PATH);
if (path != null) {
String title = doc.get(FIELD_TITLE);
if (title != null) {
indexdoc.setTitle(replace(title,qc));
//indexdoc.setPath(path);
indexdoc.setPath(parsePath(path));
String con="";
indexdoc.setIndexdate(doc.get(FIELD_DATE));
String fragment="";
try {
con=doc.get(FIELD_NAME);
indexdoc.setCon(con);
TokenStream stream = TokenSources.getAnyTokenStream(searcher.getIndexReader(),
hits[i].doc, FIELD_NAME, doc, analyzer);
//高亮附近100个字符,设定范围
highlighter.setTextFragmenter(new SimpleFragmenter(100));
fragment = highlighter.getBestFragment(stream, con);
} catch (Exception e) {
e.printStackTrace();
}
//只截取关键部分的100个字
if (con.length()<100) {
indexdoc.setFragment(fragment);
} else {
indexdoc.setFragment("..."+fragment+"...");
}
}
} else {
System.out.println((i+1) + ". " + "No path for this document");
}
indexdoclist.add(indexdoc);
}
return indexdoclist;
}
相关推荐
文章主要研究和应用了基于Lucene的搜索引擎,其特点是利用开源网络爬虫工具抓取互联网信息,并通过Lucene的API对特定信息进行索引和搜索。下面详细介绍相关知识点。 1. Lucene基础 Lucene是由Apache软件基金会提供...
《基于LUCENE的搜索引擎设计与实现》 在信息技术飞速发展的今天,搜索引擎已经成为人们获取信息的重要工具。本文将深入探讨如何使用Apache LUCENE这一强大的全文搜索引擎库,设计并实现一个高效的搜索引擎。LUCENE...
**基于Lucene的搜索引擎** Lucene是一个开源的全文检索库,由Apache软件基金会开发并维护。它是Java语言实现的,可以被集成到各种应用程序中,为开发者提供了强大的文本搜索功能。在本项目中,我们看到的是一个专门...
**基于Lucene的搜索引擎Regain安装指南** Regain是一个基于Apache Lucene的全文搜索引擎,它提供了高级的搜索功能,能够帮助用户快速、准确地在大量数据中查找所需信息。Lucene是Java语言实现的一个开源信息检索库...
完整代码,基于Lucene的分词,根据搜索引擎的目标和基本内容,将实现功能模块主要划分为创建中文分析器(创建索引)、读取索引文件查询记录、根据输入的内容进行分词、根据关键字进行全文检索、将结果按JSON格式输出...
对网络搜索引擎技术进行简要研究,学习搜索引擎完成搜索工作的整个流程中涉及的各种技术,并采用开源工具Nutch、Lucene实现一个简单的搜索引擎,具体功能如下: 1、熟悉网络爬虫程序,采用开源的爬虫工具采集指定...
**基于Lucene的中型搜索引擎(C#)** 在IT领域,搜索引擎是不可或缺的一部分,它们能够高效地处理海量数据,帮助用户快速找到所需信息。本文将深入探讨一个基于Apache Lucene的中型搜索引擎实现,该实现是由...
《基于Lucene的小型搜索引擎构建详解》 在信息爆炸的时代,如何快速、准确地找到所需信息成为了一项挑战。搜索引擎作为解决这一问题的关键工具,其技术实现也引起了广泛关注。本篇将详细介绍一个基于Apache Lucene...
**基于Lucene的桌面搜索引擎** 在信息技术飞速发展的今天,数据量激增,高效的信息检索变得至关重要。桌面搜索引擎作为个人信息管理的重要工具,可以帮助用户快速、准确地定位存储在本地计算机中的文件和信息。本...