博客专栏最新文章

[互联网] lucene-使用sandbox的wordnet完成同义词索引

wordnet是一个同义词系统。 1、从wordnet网站下载解压prolog16.tar.gz文件 2、获得sandbox工具箱wordnet包的二进制文件 3、建立同义词索引 java org.apache.lucene.wordnet.Syns2Index prologwn/wn_s.plwordnetindex 4、将WordNet中的同义词连接到分析器中 public cl ...
deepfuture 有3968人浏览 2009-12-24 13:20 专栏:lucene等搜索引擎解析

[互联网] lucene-使用Highlighter高亮显示查询项

1、Highlighte包含三个主要部分: 1)段划分器:Fragmenter 2)计分器:Scorer 3)格式化器:Formatter 2、不仅需要你提供记分器和需要高亮显示的文本,还需要一个TokenStream实例。这个TokenStream实例由分析器生成。我们提供的文本用于生成TokenStream,这个TokenStream被用作高亮显示的原始文本。 3、Highlighte ...
deepfuture 有5900人浏览 2009-12-24 13:16 专栏:lucene等搜索引擎解析

[互联网] lucene-链式过滤器ChainedFliter

1、使用ChainedFilter将其它过滤器链接起来,在过滤器中执行AND、OR、XOR和ANDNOT的位操作。 2、ChianedFilter没有缓存,只要把它封装进CachingWrappingFilter就可以提供对过滤器结果的缓存操作。 3、 public class ChainedFilterTest extends TestCase{ public static final i ...
deepfuture 有2802人浏览 2009-12-24 08:58 专栏:lucene等搜索引擎解析

[互联网] nutch查询体系

1、使用大量的lucene索引。适合分布式搜索 2、由以下几个步骤完成: 1)HTTP服务器接收用户发送过来的请求。对应到Nutch的运行代码中就是一个servlet,称为查询处理器。查询处理器负责响应用户的请求,并将相应的HTML结果返回给用户。 2)查询处理器对查询语句做一些微小的处理并将搜索的项转发到一组运行索引搜索器的机器上,每个索引搜索器并行工作且返回一组有序的文档ID列表。 ...
deepfuture 有1595人浏览 2009-12-24 08:57 专栏:lucene等搜索引擎解析

[互联网] 几分钟内可以部署的搜索引擎-searchbox

1、searchbox是一个完整的搜索工作,集成了网络爬虫、支持不同文档类型、可应用于多种自然语言,可自定义搜索结果,可用基于浏览器的管理平台对系统全权控制 2、使用了lucene 3、支持17种语言-包括日语、汉语、韩语
deepfuture 有1635人浏览 2009-12-24 08:54 专栏:lucene等搜索引擎解析

[互联网] lucene索引过程详解

一、索引是LUCENE最重要的一个过程,通过IndexWriter的addDocument接口,可以将构建的Document加入索引。 二、IndexWriter的addDocument方法首先创建一个DocumentWriter对象,接着为Segment命名,然后调用DocumentWriter的addDocument()方法向索引中增加文档,最后将Segment的信息保存,如果有多个segme ...
deepfuture 有1845人浏览 2009-12-24 08:50 专栏:lucene等搜索引擎解析

[互联网] lucene-索引的合并

1、使用IndexWriter的addIndexes(Direcotry[] dir)方法将索引合并到一个索引中 2、在合并内存中索引RAMDirectory时,一定将其相应的IndexWriter关闭,以保证滞留在缓存中的文档被刷到RAMDirectory中。
deepfuture 有1353人浏览 2009-12-24 08:50 专栏:lucene等搜索引擎解析

[互联网] lucene-文档的查找与删除

1、查找 Term term=new Term("bookname","女");//bookname是field名称 docs=reader.termDocs(term); 2、删除单个文档 IndexReader reader=IndexReader.open(path); reader.deleteDocument(0);//0是索引号 rea ...
deepfuture 有1684人浏览 2009-12-24 08:49 专栏:lucene等搜索引擎解析

[互联网] lucene-锁与IndexModifier

1、write.lock 出现在向索引中增加文档时,或是将文档从索引中删除时。 会在IndexWriter被初始化时创建,然后会在调用IndexWrtier的close()方法时被释放。 会在IndexReader使用delete方法删除文档时创建,并在调用IndexReader的close()方法时被释放 2、commit.lock 主要是与segment合并和读取的操作相关。另外,当调 ...
deepfuture 有1757人浏览 2009-12-24 08:49 专栏:lucene等搜索引擎解析

[互联网] lucene精解-BooleanQuery、RangeQuery及rewrite

1、BooleanQuery 1) Term t1=new Term("bookname","女"); Term t2=new Term("bookname","的"); Term t3=new Term("bookname","我"); TermQuery q1=new ...
deepfuture 有3357人浏览 2009-12-24 08:48 专栏:lucene等搜索引擎解析

[互联网] lucene-MultiPharseQuery带前缀和后缀查询

1、根据add方法顺序不同,从前到后依次是前缀,后缀,后缀后跟的单字。 2、 MultiPharseQuery query=new MultiPharseQuery(); Term t1=new Term("bookname","钢"); Term t2=new Term("bookname","和"); qu ...
deepfuture 有1913人浏览 2009-12-24 08:46 专栏:lucene等搜索引擎解析

[互联网] lucene-SpanQuery精解和与正则RegexQuery精解

1、SpanTermQuery:与TermQuery一样。 Term t=new Term("contenct","david"); SpanTermQuery query=new SpanTermQuery(t); 2、SpanFirstQuery:从first的内容起始位置开始,在一个固定的宽度内查找所指定的词条。 Term t=new Term( ...
deepfuture 有2601人浏览 2009-12-24 08:45 专栏:lucene等搜索引擎解析

[互联网] lucene-QueryParser

1、QueryParser在lucene2.0中所有操作建立在QueryParser实例的基础上 2、 String field="bookname"; String queryStr="java struts"; QueryParser parser=new QueryParser(field,new standardAnalyzer()); ...
deepfuture 有2056人浏览 2009-12-24 08:43 专栏:lucene等搜索引擎解析

[互联网] lucene-检索结果的翻页问题

使用缓存+多次查询+数据库 1、在用户第一次查询后,将结果放在session。这里所说的结果指的是除了当前页外,另外再缓存一部分结果,比如后5页的结果。 2、这样,当用户翻页时,会先从session缓存中查看当前页是否被缓存。 3、如果是,则取出,直接返回给用户,如果不是,则进行索引的检索, 取出当前页内容返回,并更新缓存。 4、在缓存和多次查询的基础上,用数据库来缓解一部分访问压力,在用户 ...
deepfuture 有1760人浏览 2009-12-24 08:41 专栏:lucene等搜索引擎解析

[互联网] lucene-多Field搜索与多索引搜索

1、多域搜索 MultiFieldQueryParser提供了3个静态方法 1)在不同的Field进行不同的查找 public static Query parse(String[] queries,String[] fields,Analyzer analyzer) throws ParseE ...
deepfuture 有3896人浏览 2009-12-24 08:41 专栏:lucene等搜索引擎解析

[互联网] lucene-处理中文PDF的xpdf

简单处理中文的方式是xpdf http://www.foolabs.com/xpdf/home.html 2、 Xpdf is an open source viewer for Portable Document Format (PDF) files. (These are also sometimes also called 'Acrobat' files, from the nam ...
deepfuture 有2123人浏览 2009-12-24 08:40 专栏:lucene等搜索引擎解析

[互联网] lucene-封装的搜索架构compass

compass是一套使用了lucene的搜索引擎架构,提供了一套开源的、高性能的、可灵活配置的搜索架构,类似于hibernate进行pojo封装
deepfuture 有1882人浏览 2009-12-24 08:39 专栏:lucene等搜索引擎解析

[互联网] lucene-JE中文分词

1、比较好的JAVA写的JE分词http://jesoft.cn:9080/je-analysis-1.5.3.jar,官网http://www.jesoft.cn/ 2、提供相关的API //采用正向最大匹配的中文分词算法,相当于分词粒度等于0MMAnalyzer analyzer = new MMAnalyzer();//参数为分词粒度:当字数等于或超过该参数,且能成词,该词就被切分出来MM ...
deepfuture 有3828人浏览 2009-12-24 08:39 专栏:lucene等搜索引擎解析

[互联网] 网络爬虫调研报告

基本原理 Spider概述 Spider即网络爬虫 ,其定义有广义和狭义之分。狭义上指遵循标准的 http协议利用超链接和 Web文档检索的方法遍历万维网信息空间的软件程序 ;而广义的定义则是所有能遵循 http协议检索 Web文档的软件都称之为网络爬虫。 Spider是一个功能很强的自动提取网页的程序 ,它为搜索引擎从万维网上下载网页 ,是搜索引擎的重要组成
deepfuture 有4671人浏览 2009-12-23 20:32 专栏:lucene等搜索引擎解析

[互联网] nutch-build.xm解读

nutch-build.xm解读 搜索引擎与人工智能 2009-05-09 19:16 阅读4评论0 字号: 大大 中中 小小 花了很多时间来读这个build.xml,并不是这个包不好读,相 ...
deepfuture 有2286人浏览 2009-12-23 20:12 专栏:lucene等搜索引擎解析

热门博客专栏

更多专栏>>

最新专栏

热门文章

最新评论

认真看错误代码,有时候重启电脑就行了 醉了 我把数据库配置写死不用配置文件 改 UserService ...
xxx不是你可以惹得 评论了 第十六章 综合实例——《跟我学Shiro》
holyselina 写道您前面说到能获取调用是的参数数组,我想问下,我想在通知方法中,获取当前调用代 ...
dagger9527 评论了 【第六章】 AOP 之 6.6 通知参数 ——跟 ...
Access denied for user 'root'@'localhost' (using pa ...
xxx不是你可以惹得 评论了 第十六章 综合实例——《跟我学Shiro》
只有@AspectJ支持命名切入点,而Schema风格不支持命名切入点。有一个问题不太明白Schema ...
dagger9527 评论了 【第六章】 AOP 之 6.5 AspectJ切入点语法 ...
支持虽然会迟到,但永远不会缺席!
dagger9527 评论了 【第四章】 资源 之 4.3 访问Resource ...
线上demo已经上线http://www.sparrowzoo.net/examples/markdo ...
zh_harry 评论了 高性能轻量级markdown 解析器java 版spar ...
valiant025 写道很经典,很期待谢谢支持,马上出来新的
springcloud关注者 评论了 (七)Java版Spring Cloud B2B2C o2o鸿鹄云 ...
公园美丽 写道谢谢分享,期待后面的文章,受益匪浅谢谢,马上出来
springcloud关注者 评论了 (七)Java版Spring Cloud B2B2C o2o鸿鹄云 ...
谢谢分享,期待后面的文章,受益匪浅
公园美丽 评论了 (七)Java版Spring Cloud B2B2C o2o鸿鹄云 ...
很经典,很期待
valiant025 评论了 (七)Java版Spring Cloud B2B2C o2o鸿鹄云 ...
Global site tag (gtag.js) - Google Analytics