- 浏览: 60273 次
- 性别:
- 来自: 宁波
文章分类
最新评论
-
ronartest:
我做了一个次实验,为什么总是拦截 不到action
spring拦截器学习小结 -
exten:
spring拦截器学习小结 -
exten:
...
spring拦截器学习小结 -
bei-jin-520:
这个定时器能做些什么呢?
Java定时器在Web中的应用 -
leadyu:
如果你用oracle好办得很,一个SQL搞定,主要思路是通过c ...
一个捆扰我好几天sql分组排(树形结构查询+排序)
使用Lucene进行全文检索(一)---处理索引(转载)
转载:http://www.jscud.com/srun/news/viewhtml/3_2005_8/76.htm
首先,基于一个简单的新闻系统,要想做全文检索.新闻系统的管理等在这里不在具体提出,下面列出新闻对象的类:
注:程序用会到一些工具类,不在此列出,用户可以自己实现.
package com.jscud.website.newsinfo.bean; import java.sql.timestamp; import com.jscud.util.datetime; import com.jscud.util.stringfunc; import com.jscud.website.newsinfo.newsconst; /** * 一个新闻. * * */ public class newsitem { private int nid; //新闻编号 private int cid; //类别编号 private string title;//标题 private int showtype; //内容类型:目前支持url和html private string content;//内容 private string url;//对应网址,如果内容类型是url的话 private timestamp addtime; //增加时间 private int click; //点击数 //对应的get,set函数,较多不在列出,可以使用工具生成 //...... /** * 按照类型格式化 */ public string getshowcontent() { string sres = content; if(showtype == newsconst.showtype_html) { } return sres; } public string gettarget() { if(showtype == newsconst.showtype_url) { return "_blank"; } else return ""; } /** * 静态html文件的路径及其名字 */ public string gethtmlfilename() { int nyear = datetime.getyear_date(getaddtime()); int nmonth = datetime.getmonth_date(getaddtime()); string sgenefilename = "/news/" + getcid() + "/" + nyear + "/" + nmonth +"/" + getnid() + ".htm"; return sgenefilename; } /** * 静态html文件的路径 */ public string gethtmlfilepath() { int nyear = datetime.getyear_date(getaddtime()); int nmonth = datetime.getmonth_date(getaddtime()); string sgenefilepath = getcid() + "_" + nyear + "_" + nmonth; return sgenefilepath; } } |
可以看到,我们需要对标题和内容进行检索,为了这个目的,我们首先需要来研究一下lucene.
在lucene中,如果要进行全文检索,必须要先建立索引然后才能进行检索,当然实际工作中还会有删除索引和更新索引的工作.
在此之前,介绍一个最基本的类(摘抄自http://www.blogjava.net/cap/archive/2005/07/17/7849.html):
analyzer 文件的分析器(听起来别扭,还是叫analyzer好了)的抽象,这个类用来处理分词(对中文尤其重要,转换大小写(computer->computer,实现查询大小写无关),转换词根(computers->computer),消除stop words等,还负责把其他格式文档转换为纯文本等.
在lucene中,一般会使用standardanalyzer来分析内容,它支持中文等多字节语言,当然可以自己实现特殊的解析器.standardanalyzer目前对中文的处理是按照单字来处理的,这是最简单的办法,但是也有缺点,会组合出一些没有意义的结果来.
首先我们来了解建立索引,建立索引包含2种情况,一种是给一条新闻建立索引,另外的情况是在开始或者一定的时间给批量的新闻建立索引,所以为了通用,我们写一个通用的建立索引的函数:
(一般一类的索引都放在一个目录下,这个配置可以在函数中定义,也可以写在配置文件中,通过参数传递给函数.)
/** * 生成索引. * * @param doc 目标文档 * @param indexdir 索引目录 */ public static void makeindex(document doc, string indexdir) { list alist = new arraylist(); alist.add(doc); makeindex(alist, indexdir); } /** * 生成索引. * * @param doc 生成的document. * @param indexdir 索引目录 */ public static void makeindex(list docs, string indexdir) { if (null == docs) { return; } boolean indexexist = indexexist(indexdir); indexwriter writer = null; //添加一条文档 //索引完成后的处理 |
可以看到,建立索引用到类是indexwrite,它可以新建索引或者追加索引,但是需要自己判断.判断是通过indexreader这个类来实现的,函数如下:
/** * 检查索引是否存在. * @param indexdir * @return */ public static boolean indexexist(string indexdir) { return indexreader.indexexists(indexdir); } |
如果每次都是新建索引的话,会把原来的记录删除,我在使用的时候一开始就没有注意到,后来观察了一下索引文件,才发现这个问题.
还可以看到,建立索引是给用户的document对象建立索引,document表示索引中的一条文档记录.那么我们如何建立一个文档那?以新闻系统为例,代码如下:
/** * 生成新闻的document. * * @param anews 一条新闻. * * @return lucene的文档对象 */ public static document makenewssearchdocument(newsitem anews) { document doc = new document(); doc.add(field.keyword("nid", string.valueof(anews.getnid()))); doc.add(field.text("title", anews.gettitle())); //对html进行解析,如果不是html,则不需要解析.或者根据格式调用自己的解析方法 string content = parsehtmlcontent(anews.getcontent()); doc.add(field.unstored("content", content)); doc.add(field.keyword("addtime", anews.getaddtime())); //可以加入其他的内容:例如新闻的评论等 doc.add(field.unstored("other", "")); //访问url string newsurl = "/srun/news/viewhtml/" + anews.gethtmlfilepath() + "/" + anews.getnid() + ".htm"; doc.add(field.unindexed("visiturl", newsurl)); return doc; } |
通过上面的代码,我们把一条新闻转换为lucene的document对象,从而进行索引工作.在上面的代码中,我们又引入了lucene中的field(字段)类.document文档就像数据库中的一条记录,它有很多字段,每个字段是一个field对象.
从别的文章摘抄一段关于field的说明(摘抄自http://www.blogjava.net/cap/archive/2005/07/17/7849.html):
[quote]
类型 analyzed indexed stored 说明
field.keyword(string,string/date) n y y 这个field用来储存会直接用来检索的比如(编号,姓名,日期等)
field.unindexed(string,string) n n y 不会用来检索的信息,但是检索后需要显示的,比如,硬件序列号,文档的url地址
field.unstored(string,string) y y n 大段文本内容,会用来检索,但是检索后不需要从index中取内容,可以根据url去load真实的内容
field.text(string,string) y y y 检索,获取都需要的内容,直接放index中,不过这样会增大index
field.text(string,reader) y y n 如果是一个reader, lucene猜测内容比较多,会采用unstored的策略.
[/quote]
我们可以看到新闻的编号是直接用来检索的,所以是keyword类型的字段,新闻的标题是需要检索和显示用的,所以是text类型,而新闻的内容因为是html格式的,所以在经过解析器的处理用,使用的unstored的格式,而新闻的时间是直接用来检索的,所以是keyword类型.为了在新闻索引后用户可以访问到完整的新闻页面,还设置了一个unindexed类型的访问地址字段.
(对html进行解析的处理稍后在进行讲解)
为一条新闻建立索引需要两个步骤:获取document,传给makeindex函数,代码如下:
public static void makenewsinfoindex(newsitem anews) { if (null == anews) { return; } makeindex(makenewssearchdocument(anews),indexdir); } |
建立索引的工作就进行完了,只要在增加新闻后调用 makenewsinfoindex(newsitem); 就可以建立索引了.
如果需要删除新闻,那么也要删除对应的索引,删除索引是通过indexreader类来完成的:
/** * 删除索引. * @param aterm 索引删除条件 * @param indexdir 索引目录 */ public static void deleteindex(term aterm, string indexdir) { list alist = new arraylist(); alist.add(aterm); deleteindex(alist, indexdir); } /** indexreader reader = null; |
删除索引需要一个条件,类似数据库中的字段条件,例如删除一条新闻的代码如下:
public static void deletenewsinfoindex(int nid) { term aterm = new term("nid", string.valueof(nid)); deleteindex(aterm,indexdir); } |
通过新闻的id,就可以删除一条新闻.
如果需要更新新闻,如何更新索引哪? 更新索引需要先删除索引然后新建索引2个步骤,其实就是把上面的代码组合起来,例如更新一条新闻:
public static void updatenewsinfoindex(newsitem anews) { if (null == anews) { return; } deletenewsinfoindex(anews.getnid()); makenewsinfoindex(anews); } |
至此,索引的建立更新和删除就告一段落了.其中批量更新新闻的代码如下:
(批量更新应该在访问人数少或者后台程序在夜间执行)
public static void makeallnewsinfoindex(list newslist) { list terms = new arraylist(); list docs = new arraylist(); for (int i = 0; i < newslist.size(); i++) deleteindex(terms,indexdir); |
下一节讲解如何对要建立索引的内容进行解析,例如解析html等内容.
评论
http://www.z6688.com/info/46145-1.htm
http://www.z6688.com/info/46146-1.htm
http://www.z6688.com/info/46147-1.htm
...是你自己没看清楚
PS:现在这些网站,转载了也不说个地址,好点的呢写个原文所在的网站,其他的呢就直接来个“网友供稿”、“来源:网络”……
http://www.z6688.com/info/46145-1.htm
http://www.z6688.com/info/46146-1.htm
http://www.z6688.com/info/46147-1.htm
http://www.jscud.com/srun/news/viewhtml/3_2005_8/78.htm
http://www.jscud.com/srun/news/viewhtml/3_2005_8/78.htm
你的原文地址没对吧
@author scud(飞云小侠) http://www.jscud.com转贴却不在明显位置注明出处,不太厚道!!!
谢谢!!
相关推荐
Lucene是一个开源的全文检索库,由Apache软件基金会开发,广泛应用于各种信息检索系统。在5.2.1版本中,Lucene提供了更为高效和强大的搜索功能,为开发者提供了构建搜索引擎的坚实基础。本篇文章将深入探讨Lucene-...
总结,Lucene作为一款强大的全文检索库,其核心在于索引的创建和搜索的执行。通过理解其基本概念和操作流程,开发者可以灵活地构建符合需求的全文检索系统。在实际应用中,我们还需要关注性能优化、查询复杂性和用户...
作为一个高级的搜索引擎工具包,Lucene4 提供了完整的索引和搜索机制,使得在文件和数据库中进行全文检索变得简单高效。在本文中,我们将深入探讨 Lucene4 的核心概念、工作流程以及如何在实际项目中应用。 ### 1. ...
总的来说,Lucene.Net 在 .Net MVC4 上实现全文检索是一个涉及数据库交互、索引构建、查询处理和结果展示的综合过程。通过熟练掌握 Lucene.Net 的使用,可以为用户提供高效、准确的全文搜索体验。
Apache Lucene 是一个开源的全文检索库,它提供了一种高效、可扩展的方式来构建全文搜索引擎。在Java开发中,Lucene被广泛用于实现文件的全文检索功能,包括对doc、docx、pdf、txt等常见格式文档的文本内容检索。在...
在这个基于Struts2的全文检索系统中,Lucene扮演了核心的角色,负责文本的索引和查询。 **Struts2框架** Struts2是一个开源的MVC(Model-View-Controller)框架,用于构建Java Web应用程序。它提供了良好的结构和...
在本文中,我们将探讨如何使用Zend Framework的Lucene模块进行全文检索,特别是针对中文分词的处理。全文检索是提高网站或应用搜索功能的关键技术,它允许用户输入任意词汇,系统能够快速找到与之相关的内容。Zend ...
3. **索引(Index)**:索引是Lucene的核心,它是对文档集合的结构化表示,使得能快速进行全文检索。Lucene通过分词(Tokenization)、词干提取(Stemming)、去除停用词(Stopword Removal)等过程将原始文本转换...
**使用Lucene全文检索数据库** Lucene是一个高性能、全文本搜索库,由Apache软件基金会开发。它是Java编写的,能够帮助开发者在各种应用程序中实现强大的全文检索功能。在这个项目中,我们将探讨如何利用Lucene ...
本文将详细介绍如何使用Spring MVC框架结合Apache Lucene库来构建一个强大的全文检索系统。首先,让我们了解这两个核心组件。 **1. Spring MVC** Spring MVC是Spring框架的一部分,它是一个用于构建Web应用程序的...
- **索引(Index)**: Lucene 首先对文档内容进行分析和处理,生成倒排索引(Inverted Index),这是一种将单词映射到包含该单词的文档集合的数据结构,便于快速查找包含特定单词的文档。 - **分词器(Tokenizer)...
本文探讨了一种基于Jakarta Lucene构建的全文检索系统模型。相较于Google的站内检索及传统数据库检索方法,该模型展现出显著的优势,特别是在关键字拆分、信息检索速度以及搜索结果排序等方面具有独特之处,能够确保...
全文检索的核心在于构建索引和执行查询两个过程:首先,系统会对文档集合中的每一份文档进行分析,提取出有意义的词语,并建立索引;接着,当用户输入查询时,系统会根据索引快速找到匹配的文档。 #### Lucene系统...
在使用Lucene进行全文检索时,有三个核心的Jar包是必不可少的,它们分别是: 1. **lucene-analyzers-3.6.1.jar** - 这个包主要包含了Lucene的分析器组件。在全文检索中,分析器是至关重要的,因为它负责将用户输入...
Lucene是一套用于全文检索和搜寻的开源程式库,由Apache...提供了比Lucene更为丰富的查询语言, 同时实现了可配置、可扩展并对查询性能进行了优化,并且提供了一个完善的功能管理界面, 是一款非常优秀的全文搜索引擎。
luke8作为一款强大的Lucene索引分析工具,对于开发人员和系统管理员来说,是理解和优化全文检索系统的必备利器。通过它,我们可以直观地看到索引库的内部结构,更好地理解和控制搜索行为,从而提升系统的检索效率和...
总结,基于Lucene的全文检索系统提供了强大的文本搜索能力,通过分析、索引和搜索机制,使得信息检索变得高效和准确。对于开发者而言,理解并掌握Lucene的原理和实践,能有效提升其在信息检索领域的技术水平。
在实际应用中,首先,Je-Analysis会处理输入的中文文本,进行分词操作,然后将分词结果传递给Lucene进行索引。当用户发起搜索请求时,Lucene会利用已建立的索引快速找到匹配的文档,从而返回搜索结果。 在分词组件...
在Android平台上实现全文检索并高亮关键字是一项技术挑战,但通过集成Apache Lucene库,可以有效地解决这个问题。Apache Lucene是一个高性能、可扩展的信息检索库,它为开发人员提供了强大的文本搜索功能。以下是对...