lucene等搜索引擎解析
收藏

lucene等搜索引擎解析

分享到: Sina Tec

最近更新文章

lucene-使用sandbox的wordnet完成同义词索引

wordnet是一个同义词系统。 1、从wordnet网站下载解压prolog16.tar.gz文件 2、获得sandbox工具箱wordnet包的二进制文件 3、建立同义词索引 java org.apache.lucene.wordnet.Syns2Index prologwn/wn_s.plwordnetindex 4、将WordNet中的同义词连接到分析器中 public cl ...
deepfuture 评论(0) 有3981人浏览 2009-12-24 13:20

lucene-使用Highlighter高亮显示查询项

1、Highlighte包含三个主要部分: 1)段划分器:Fragmenter 2)计分器:Scorer 3)格式化器:Formatter 2、不仅需要你提供记分器和需要高亮显示的文本,还需要一个TokenStream实例。这个TokenStream实例由分析器生成。我们提供的文本用于生成TokenStream,这个TokenStream被用作高亮显示的原始文本。 3、Highlighte ...
deepfuture 评论(0) 有5915人浏览 2009-12-24 13:16

lucene-链式过滤器ChainedFliter

1、使用ChainedFilter将其它过滤器链接起来,在过滤器中执行AND、OR、XOR和ANDNOT的位操作。 2、ChianedFilter没有缓存,只要把它封装进CachingWrappingFilter就可以提供对过滤器结果的缓存操作。 3、 public class ChainedFilterTest extends TestCase{ public static final i ...
deepfuture 评论(0) 有2819人浏览 2009-12-24 08:58

nutch查询体系

1、使用大量的lucene索引。适合分布式搜索 2、由以下几个步骤完成: 1)HTTP服务器接收用户发送过来的请求。对应到Nutch的运行代码中就是一个servlet,称为查询处理器。查询处理器负责响应用户的请求,并将相应的HTML结果返回给用户。 2)查询处理器对查询语句做一些微小的处理并将搜索的项转发到一组运行索引搜索器的机器上,每个索引搜索器并行工作且返回一组有序的文档ID列表。 ...
deepfuture 评论(0) 有1613人浏览 2009-12-24 08:57

几分钟内可以部署的搜索引擎-searchbox

1、searchbox是一个完整的搜索工作,集成了网络爬虫、支持不同文档类型、可应用于多种自然语言,可自定义搜索结果,可用基于浏览器的管理平台对系统全权控制 2、使用了lucene 3、支持17种语言-包括日语、汉语、韩语
deepfuture 评论(0) 有1682人浏览 2009-12-24 08:54

lucene索引过程详解

一、索引是LUCENE最重要的一个过程,通过IndexWriter的addDocument接口,可以将构建的Document加入索引。 二、IndexWriter的addDocument方法首先创建一个DocumentWriter对象,接着为Segment命名,然后调用DocumentWriter的addDocument()方法向索引中增加文档,最后将Segment的信息保存,如果有多个segme ...
deepfuture 评论(0) 有1862人浏览 2009-12-24 08:50

lucene-索引的合并

1、使用IndexWriter的addIndexes(Direcotry[] dir)方法将索引合并到一个索引中 2、在合并内存中索引RAMDirectory时,一定将其相应的IndexWriter关闭,以保证滞留在缓存中的文档被刷到RAMDirectory中。
deepfuture 评论(0) 有1411人浏览 2009-12-24 08:50

lucene-文档的查找与删除

1、查找 Term term=new Term("bookname","女");//bookname是field名称 docs=reader.termDocs(term); 2、删除单个文档 IndexReader reader=IndexReader.open(path); reader.deleteDocument(0);//0是索引号 rea ...
deepfuture 评论(0) 有1740人浏览 2009-12-24 08:49

lucene-锁与IndexModifier

1、write.lock 出现在向索引中增加文档时,或是将文档从索引中删除时。 会在IndexWriter被初始化时创建,然后会在调用IndexWrtier的close()方法时被释放。 会在IndexReader使用delete方法删除文档时创建,并在调用IndexReader的close()方法时被释放 2、commit.lock 主要是与segment合并和读取的操作相关。另外,当调 ...
deepfuture 评论(0) 有1771人浏览 2009-12-24 08:49

lucene精解-BooleanQuery、RangeQuery及rewrite

1、BooleanQuery 1) Term t1=new Term("bookname","女"); Term t2=new Term("bookname","的"); Term t3=new Term("bookname","我"); TermQuery q1=new ...
deepfuture 评论(0) 有3375人浏览 2009-12-24 08:48

lucene-MultiPharseQuery带前缀和后缀查询

1、根据add方法顺序不同,从前到后依次是前缀,后缀,后缀后跟的单字。 2、 MultiPharseQuery query=new MultiPharseQuery(); Term t1=new Term("bookname","钢"); Term t2=new Term("bookname","和"); qu ...
deepfuture 评论(0) 有1954人浏览 2009-12-24 08:46

lucene-SpanQuery精解和与正则RegexQuery精解

1、SpanTermQuery:与TermQuery一样。 Term t=new Term("contenct","david"); SpanTermQuery query=new SpanTermQuery(t); 2、SpanFirstQuery:从first的内容起始位置开始,在一个固定的宽度内查找所指定的词条。 Term t=new Term( ...
deepfuture 评论(0) 有2616人浏览 2009-12-24 08:45

lucene-QueryParser

1、QueryParser在lucene2.0中所有操作建立在QueryParser实例的基础上 2、 String field="bookname"; String queryStr="java struts"; QueryParser parser=new QueryParser(field,new standardAnalyzer()); ...
deepfuture 评论(0) 有2117人浏览 2009-12-24 08:43

lucene-检索结果的翻页问题

使用缓存+多次查询+数据库 1、在用户第一次查询后,将结果放在session。这里所说的结果指的是除了当前页外,另外再缓存一部分结果,比如后5页的结果。 2、这样,当用户翻页时,会先从session缓存中查看当前页是否被缓存。 3、如果是,则取出,直接返回给用户,如果不是,则进行索引的检索, 取出当前页内容返回,并更新缓存。 4、在缓存和多次查询的基础上,用数据库来缓解一部分访问压力,在用户 ...
deepfuture 评论(0) 有1813人浏览 2009-12-24 08:41

lucene-多Field搜索与多索引搜索

1、多域搜索 MultiFieldQueryParser提供了3个静态方法 1)在不同的Field进行不同的查找 public static Query parse(String[] queries,String[] fields,Analyzer analyzer) throws ParseE ...
deepfuture 评论(1) 有3912人浏览 2009-12-24 08:41

lucene-处理中文PDF的xpdf

简单处理中文的方式是xpdf http://www.foolabs.com/xpdf/home.html 2、 Xpdf is an open source viewer for Portable Document Format (PDF) files. (These are also sometimes also called 'Acrobat' files, from the nam ...
deepfuture 评论(0) 有2136人浏览 2009-12-24 08:40

lucene-封装的搜索架构compass

compass是一套使用了lucene的搜索引擎架构,提供了一套开源的、高性能的、可灵活配置的搜索架构,类似于hibernate进行pojo封装
deepfuture 评论(0) 有1897人浏览 2009-12-24 08:39

lucene-JE中文分词

1、比较好的JAVA写的JE分词http://jesoft.cn:9080/je-analysis-1.5.3.jar,官网http://www.jesoft.cn/ 2、提供相关的API //采用正向最大匹配的中文分词算法,相当于分词粒度等于0MMAnalyzer analyzer = new MMAnalyzer();//参数为分词粒度:当字数等于或超过该参数,且能成词,该词就被切分出来MM ...
deepfuture 评论(0) 有3848人浏览 2009-12-24 08:39

网络爬虫调研报告

基本原理 Spider概述 Spider即网络爬虫 ,其定义有广义和狭义之分。狭义上指遵循标准的 http协议利用超链接和 Web文档检索的方法遍历万维网信息空间的软件程序 ;而广义的定义则是所有能遵循 http协议检索 Web文档的软件都称之为网络爬虫。 Spider是一个功能很强的自动提取网页的程序 ,它为搜索引擎从万维网上下载网页 ,是搜索引擎的重要组成
deepfuture 评论(0) 有4686人浏览 2009-12-23 20:32

nutch-build.xm解读

nutch-build.xm解读 搜索引擎与人工智能 2009-05-09 19:16 阅读4评论0 字号: 大大 中中 小小 花了很多时间来读这个build.xml,并不是这个包不好读,相 ...
deepfuture 评论(0) 有2301人浏览 2009-12-23 20:12
  • 专栏创建者:deepfuture
  • 创建时间:2012-02-12 11:45:46
  • 专栏文章数:100篇
  • 专栏被浏览:285886 次

本专栏热门文章

最新评论

写的很好~
di1984HIT 评论了 lucene入门-索引网页
你好!我运行你的这个程序出现了问题,麻烦帮下忙!我的QQ:1422461141,谢谢了!
u013328887 评论了 搜索引擎开发lucene-笔者博客的大部分luce ...
解压密码:http://deepfuture.javaeye.com/
deepfuture 评论了 搜索引擎开发lucene-笔者博客的大部分luce ...
解压密码在哪,怎么没找到。谢谢了
jiaqian0118 评论了 搜索引擎开发lucene-笔者博客的大部分luce ...
内存索引写入硬盘文件索引的结果放到硬盘中,这样重启电脑后,仍然可以调取
deepfuture 评论了 lucene-内存索引、内存索引保存在硬盘、索 ...
博主,您好,请问下内存索引的原理是什么呢,大致是什么意思呢?文件的操作不都是在内存的嘛?
w156445045 评论了 lucene-内存索引、内存索引保存在硬盘、索 ...
能不能给一个比较完整的例子
zr19851213 评论了 lucene-同义词分析器
为什么我的英文也不支持?
cf2huihui 评论了 lucene-FuzzyQuery模糊查询
还行啊,做个记号
di1984HIT 评论了 lucene-多Field搜索与多索引搜索
QueryParser通过在某个项增加"~"后缀实现模糊查询 貌似这个有效果,但 ...
alfusen_xiong 评论了 lucene-FuzzyQuery模糊查询
Global site tag (gtag.js) - Google Analytics