- 浏览: 160406 次
- 性别:
- 来自: 北京
最新评论
-
w156445045:
我最近想写这方面的论文,学位论文啊,哎。希望博主能给点思路,谢 ...
《Lucene+Nutch搜索引擎》看过以后。。。 -
inprice:
这也要研究啊!!!!! 失望ing.........
完成了对于heritrix的初步研究 -
dt_fb:
您好,我想问问您,你有跳过recrawl.sh这个脚本文件么? ...
Nutch开源搜索引擎的crawl日志分析及工作目录说明 -
lovepoem:
能增量吗?是不是还是把所有的url遍历出来。和以前的对比。算是 ...
Nutch开源搜索引擎增量索引recrawl的终极解决办法 -
itang:
见到牛人照片了, MS下巴动过刀(开玩笑)
搜索引擎名人堂之Jeff Dean
文章列表
最近,微软亚洲研究院刚刚发布了一个“人肉搜索”的新产品,可以从你输入的某个名字,搜索到该名字双关的人物。下面笔者分享一下人立方的功能
人立方地址:http://renlifang.msra.cn/
人立方简介
微软人立方关系搜索 ...
- 2008-10-03 20:00
- 浏览 3985
- 评论(0)
十一要放假了,先祝广大同学们节日快乐!
在之前的一篇文章中,我给出了Nutch的recrawl的解决办法。说实话,当时已经觉得可以应对recrawl的问题,但是我自己在测试过程中发现,在index的merge时,并没有完全成功。本文就是针对上一篇文章给出解决办法。
具体的原因是在merge完成后,会在index目录下面生成一个merge-output目录,这是由于临时目录newindexs和index执行完毕后产生的,这就增量索引的结果。
在shell中的命令是:/nutch/search/bin/nutch merge crawl10/index crawl10/newindexes
...
在网上找到一篇于2004年11月由CommerceNet Labs出具关于Nutch的技术研究报告,报告由DougCutting和CommerceNet Labs的三位研究员一起来完成的。
报告的全名是Nutch: A Flexible and Scalable Open-Source Web Search Engine。基本描述了Nutch、Lucene与其它开源搜索软件的比较,Nutch的组成框架,索引和搜索功能等等。
从报告内容来看,Nutch正在接近当初的目标,甚至有一些方面已经超过报告内容的描述。报告中并没有提到现在很牛的Hadoop,因为Hadoop是在Nutch项目启动后,分离 ...
Google公司都是些什么牛人?
1 Vinton Cerf :号称互联网之父,TCIP/IP协议和互联网架构的合作设计者。他05年10月3日开始正式为Google工作,职位为"首席互联网传布官"。
2 Joshua Bloch :号称java教父,《Effective Java》《JAVA PUZZLE》的作者,JSR175标准的leader,J2SE 1.5的主要开发人员之一。
3 Guido Van Rossum: Python之父。Google把Python用的炉火纯青,有了Python之父的加盟,肯定如虎添翼了。
4 Andre ...
Doug Cutting是一个开源搜索技术的提倡者和创造者。他和Mike Cafarella发起Lucene和Nutch开源搜索项目,这些项目现在被Apache软件基金会管理。早期开发Luncene,Doug研究搜索技术还在Excite,apple公司和Xerox PARC。Lucene是一个搜索索引索器,Nutch有一个蜘蛛或爬虫,是一个普通开源搜索平台的两个关键组件,首先爬取网络内容,然后将其构建到一个可查询的索引里。Cutting的这两个项目的领导能力延伸到普通开源软件项目的概念和处理能力,就像Linux和MYSQL在搜索垂直领域的重要性。很难跟踪这些平台的从业者的数量,公共报道称,运用l ...
本文重点是介绍Nutch开源搜索引擎如何在Hadoop分布式计算架构上进行recrawl,也就是在解决nutch增量索引的问题。google过来的章中没有一个详细解释整个过程的,经过一番痛苦的研究,最后找到了最终解决办法。
先按照自己部署好的Nutch架构写出recrawl的shell脚本,注意:如果本地索引,就需要调用bash的 rm、cp等命令,如果HDFS上的索引,就需要调用hadoop dfs -rmr 或者hadoop dfs -cp命令来处理,当然在用这个命令的同时,还需要处理一下命令的返回结果。写好脚本后,执行就可以了,或者放到crontab里面定时执行。
网上有一篇wiki, ...
本文是我在集成中文分词paoding时积累的经验,单独成一篇文章来重点介绍,重点需要了解的有下面几个文件,a)插件目录及插件文件 build.xml,plugin.xml b)nutch-0.9\src\plugin\build.xml c)WEB-INF/classes/nutch-site.xml
然后通过按照下面的方式来配置,执行ant package就可以搞定了,这里用ant的方式来处理整个编译发布过程。
1)在src/plugin下面加入,analysis-zh和lib-paoding-analyzers目录。具体参见
E:\workspace\searchengine\nutc ...
本文重点讲述Hadoop的整个MapReduce过程,不讲故事,不废话,重在描述每个环节。通过对google过来的文章一番苦读,我整了一些笔记,加入一些自己的看法,不一定全对,大家要区别对待。希望本文对想了解Hadoop的MapReduce的同学有 ...
Map Reduce - the Free Lunch is not over?
微软著名的C++大师Herb Sutter
在2005年初的时候曾经写过一篇重量级的文章:”The Free Lunch Is Over: A Fundamental Turn Toward Concurrency in Software
“,预言OO之后软件开发将要面临的又一次重大变革-并行计 ...
最近一直在研究Nutch,所以关注到了搜索引擎界的一些名人,以示榜样。
看了《程序员》2008年9月刊,第一篇文章就是介绍这位神人的,他就是Google的软件架构师Jeff Dean。
我们在工作和生活中都会用到google等搜索引擎,而在那异常简洁的页面和搜索按钮后面都进行着大量的计算。每一个google的用户都在享受着这个软件架构天才对于搜索引擎的贡献。
他曾参与了 google爬虫、索引、搜索服务、广告等系统的设计,还设计了MapReduce以及BigTable等分布式架构。Jeff Dean在google这个平台上充分发挥其软件天才,创造出一个又一个另世人惊叹的软 ...
Analysis
包分析
算法和数据结构分析
:
由于
Analysis
包比较简单
,
不详述了
!
算法
:
基于机械分词
1-gram,2-gram,HMM(
如果使用
ICTCLAS
接口的话
)
数据结构
:
部分 ...
Document
包分析
理解
Document
Lucene
没有定义数据源
,
而是定义了一个通用的文档结构
,
这个文档结构就是
LuceneDocument
包下的
Document
类
.
一个
Document
对应于你在进行网页抓取的时候一个
msword,
一个
pdf,
一个
原文来自:http://liyu2000.nease.net/article/Lucene/queryparsersyntax.htm
绪论
Lucene提供了方便您创建自建查询的API,也通过QueryParser提供了强大的查询语言。
本文讲述Lucene的查询语句解析器支持的语法,Lucene的查询语句解析器是使用JavaCC工具生成的词法解析器,它将查询字串解析为Lucene Query对象。
项(
Term
)
一条搜索语句被拆分为一些项( ...
Index包分析
原创:windshow TjuAILab
Lucene索引中有几个最基础的概念,索引(index),文档(document),域(field),和项(或者译为语词term)
其中Index为Document的序列
Document为Field的序列
Field为Term的序列
Term就是一个子串.
存 ...
Lucene倒排索引原理
xzall 原创 (参与分:2747,专家分:140) 发表:2004-08-04 10:12 版本:1.0 阅读:2652次
Lucene是一个高性能的java全文检索工具包,它使用的是倒排文件索引结构。该结构及相应的生成算法如下:
0)设有两篇文章1和2
文章1的内容为:Tom lives in Guangzhou,I live in Guangzhou too.
文章2的内容为:He once lived in Shanghai.
1)由于lucene是基于关键词索引和查询的,首先我们要取得这两篇文章的关键词,通常我们需要如下处理措施
...