- 浏览: 283655 次
- 性别:
- 来自: 广州
最新评论
-
jpsb:
...
为什么需要分布式? -
leibnitz:
hi guy, this is used as develo ...
compile hadoop-2.5.x on OS X(macbook) -
string2020:
撸主真土豪,在苹果里面玩大数据.
compile hadoop-2.5.x on OS X(macbook) -
youngliu_liu:
怎样运行这个脚本啊??大牛,我刚进入搜索引擎行业,希望你能不吝 ...
nutch 数据增量更新 -
leibnitz:
also, there is a similar bug ...
2。hbase CRUD--Lease in hbase
文章列表
从之前 的抓取結果来分析各阶段的情况。其中蓝色表示未修改但要注意的
,红色表示前后已经修改的
。
injector
:只有二个seed urls( 这里没有列出csdn数据)
http://www.163.com/ Version: 7 #7为当前nutch的修改版本
Status: 1 (db_unfetched
) #see CrawlDatum.STATUS_DB_UNFETCHEDFetch
time: Mon Jul 04 14:57:19 CST 2011
Modified ti ...
抓取流程-updatedb
- 博客分类:
- nutch
此过程比较简单,是generate,fetch,udpatedb中的最后一环。其实就是将新发现的和抓取失败的送回crawldb/current下。
过程:
一。input
inputpaths:contains [ crawldb/current,crawl_fetch,crawl_parse],note:这是利用FileInputPath.addInputpath(),这意味着相当于使用多个files作为输入;但不同于MultiInputs.addInput()!
additionsAllowed
:如果为false,只会更新crawldb中的urls而不会将新parsed ...
抓取流程-fetcher
- 博客分类:
- nutch
这个过程很简单,就是开启了一个maprunnable来实现自定义的输出(没有使用通常的mapper).red也是使用默认的.
过程是:
一。Fetch初始化
由于它实现了MapRunnable,那么它其实是一个mapper的启动器,包括将多个输入Key-value pairs处理,然后输出的过程完全由其中的run()实现了,所以发现job中并没有定义mapper;而reduce也是使用了默认的。
输入
segment:由上一过程generator的输出生成,形如segments/201106xxxxxx的格式;
threads:将由多少个fetcher threa ...
一。topN job:对urls预处理并取topN urls by score decending.
map:<url,crawldatum> -> <score,selectorentry>。urls预处理和格式转换
a.url filter
b.初步处理是否fetch(当fetchtime 比当前时间滞后才fetch)
c.抓取间隔处理。如果 在crawl.gen.delay时间范围内,则不会再将次云抓取,这个也是索引实时度
的一个主要参数 。/7days/
d.scoring filter 作为sort value.其中link and op ...
这是一个将seed urls进行初始化为web图的过程,其中page 作为node,links作为边。
另外这里的urls(每行一个,可以在url后加上相关metadata,比如,nutch.score等参数进行url crawl的定制)。
过程:
一。sort job
此过程主要是在m阶段进行一些url清洗,如urlnormal,urlfilter,scorefiler;r阶段进行直接输出(可以说 是使用默认的)。输出使用sequence file.因为它保存了CrawlDatum object直接作为二进制保存,方便后续的merger job读取,
格式是:<url,c ...
爬行方式
nutch分为intract crawling(IC) and whole web crawling(WWC),其实这两者区别不大,主要是后者使用了step by step的方式来实现,而前者是一个crawl来处理整个procedure,同时有进行pagerank处理功能?
。当然分步进行提供了更多的灵活性(即参数可以控),也便 于观察。
WWC实现方式
有内置的DmozParser针对专用urls来生成seed urls;也可以使用类IC方式,提供一个url-seed plat file。
crawl procedure
这对于IC或WWC方式都是 ...
现在开始对它进行研究和应用,有兴趣的一起討論。
研究目的:
1.海量数据情况下hadoop的继续深入
2.分布式下爬虫和搜索的探索
3.pagerank的实际分析
4.对开源架构的学习
references:
eclipse上布置(是java project而不是web project)
应用心得]nutch1.2 的eclipse windows 集成
网络爬虫调研报告
Nutch架构
使用svnadmin create时建立的是一个resposity,可以看作是一个root directory.如:
svnadmin create /usr/local/svn/project-name
建立后可以进行acl的设置,包括认证,授权等。
其中,svnserve.conf+password是认证文件,需要在前者设置使用password模式,然后在password添加自己的密码;authz是授权文件,设定许可
chown svn root
安装过几次都是在/usr/local下,由于是root权限,所以在elcipse连接时显示
svn: Can't open f ...
一。概念
zab:zookeeper automic broadcast
zab不同于paxos,但我相信(目前没真正去看细节)大体算法是一致的,所以目的是一样的:
提供高可用性的协调器功能,当然 这不能缺少以分布式提交方式(可分为two-phase commit,2pc;three-phase commit 3pc) 为基础的事务提交。
二。paxos
由于paxos是基础,就先来了解它。
//TODO
references:
http://rdc.taobao.com/team/jm/archives/397
http://rdc.taobao ...
search architecture
component
start
stop
client
test
hdfs
start-dfs.sh
stop-dfs.sh
jps;
hadoop fs -ls .
mapred
start-mapred.sh
stop-mapred.sh
jps;
hadoop jar hadoop-xx.example.jar wordcount input output
hbase
start-hbase.sh
stop-hbase.sh
hbase ...
**refer to zookeeper 3.2.2**
zookeeper 利用场合:
a.全局配置服务.
其实相当于是利用了zk的高可用性和快速访问的特点,可以将某些全局属性置于其中,当然 由于每个znode是1m存储上限,所以不能是大量的数据.事实上,可以把zk看成是高可用的文件系统也是可以的(high available file system)
b.锁服务
由于zk有EPHEMERAL_SEQUENTIAL创建znode的模式,所以当加入 一个新node时,自动在后缀加1;同时由于是ephemeral的,即便lock znode死了,其它znodes也可以重新进行lea ...
hbase's architecture overview:
note:
* why hbase use zookeeper but hadoop?
hbase use zk to implements the heartbeat mechanism ,and hadoop use build-in heartbeat to detect node states and assign tasks;of course this will simly the code complexcity and decouple easily.
* HMaster ...
refer to 0.20.6 version
==================
1
----- use hbase's built in-zookeeper instance as coordinator
2----- use zookeeper cluster as coordinator
within this intallition,i met with a puzzle to this,
here are the steps for installation:
1)configure the hba ...
refer to 0.20.6 version
this is a little different from standalone install ,as hbase will use pesudo/real cluster hadoop .so some diferences are listed below:
A.hbase-site.xml
1)hbase.rootdir
u should set it with the hadoop hdfs url,e.g. hdfs://url-to-hdfs:<port>/path-shared-by-regionser ...