`
文章列表

抓取流程-小结

从之前 的抓取結果来分析各阶段的情况。其中蓝色表示未修改但要注意的 ,红色表示前后已经修改的 。     injector :只有二个seed urls( 这里没有列出csdn数据) http://www.163.com/    Version: 7                #7为当前nutch的修改版本 Status: 1 (db_unfetched )                    #see CrawlDatum.STATUS_DB_UNFETCHEDFetch time: Mon Jul 04 14:57:19 CST 2011 Modified ti ...

抓取流程-updatedb

此过程比较简单,是generate,fetch,udpatedb中的最后一环。其实就是将新发现的和抓取失败的送回crawldb/current下。   过程: 一。input inputpaths:contains [ crawldb/current,crawl_fetch,crawl_parse],note:这是利用FileInputPath.addInputpath(),这意味着相当于使用多个files作为输入;但不同于MultiInputs.addInput()! additionsAllowed :如果为false,只会更新crawldb中的urls而不会将新parsed ...

抓取流程-fetcher

这个过程很简单,就是开启了一个maprunnable来实现自定义的输出(没有使用通常的mapper).red也是使用默认的. 过程是:   一。Fetch初始化 由于它实现了MapRunnable,那么它其实是一个mapper的启动器,包括将多个输入Key-value pairs处理,然后输出的过程完全由其中的run()实现了,所以发现job中并没有定义mapper;而reduce也是使用了默认的。   输入 segment:由上一过程generator的输出生成,形如segments/201106xxxxxx的格式; threads:将由多少个fetcher threa ...
  一。topN job:对urls预处理并取topN urls by score decending. map:<url,crawldatum> -> <score,selectorentry>。urls预处理和格式转换 a.url filter b.初步处理是否fetch(当fetchtime 比当前时间滞后才fetch) c.抓取间隔处理。如果 在crawl.gen.delay时间范围内,则不会再将次云抓取,这个也是索引实时度 的一个主要参数 。/7days/ d.scoring filter 作为sort value.其中link and op ...
这是一个将seed urls进行初始化为web图的过程,其中page 作为node,links作为边。 另外这里的urls(每行一个,可以在url后加上相关metadata,比如,nutch.score等参数进行url crawl的定制)。   过程: 一。sort job 此过程主要是在m阶段进行一些url清洗,如urlnormal,urlfilter,scorefiler;r阶段进行直接输出(可以说 是使用默认的)。输出使用sequence file.因为它保存了CrawlDatum object直接作为二进制保存,方便后续的merger job读取, 格式是:<url,c ...
爬行方式 nutch分为intract crawling(IC) and whole web crawling(WWC),其实这两者区别不大,主要是后者使用了step by step的方式来实现,而前者是一个crawl来处理整个procedure,同时有进行pagerank处理功能? 。当然分步进行提供了更多的灵活性(即参数可以控),也便 于观察。   WWC实现方式 有内置的DmozParser针对专用urls来生成seed urls;也可以使用类IC方式,提供一个url-seed plat file。   crawl procedure 这对于IC或WWC方式都是 ...
现在开始对它进行研究和应用,有兴趣的一起討論。   研究目的: 1.海量数据情况下hadoop的继续深入 2.分布式下爬虫和搜索的探索 3.pagerank的实际分析 4.对开源架构的学习     references: eclipse上布置(是java project而不是web project)   应用心得]nutch1.2 的eclipse windows 集成   网络爬虫调研报告 Nutch架构  
使用svnadmin create时建立的是一个resposity,可以看作是一个root directory.如: svnadmin create /usr/local/svn/project-name 建立后可以进行acl的设置,包括认证,授权等。 其中,svnserve.conf+password是认证文件,需要在前者设置使用password模式,然后在password添加自己的密码;authz是授权文件,设定许可   chown svn root 安装过几次都是在/usr/local下,由于是root权限,所以在elcipse连接时显示 svn: Can't open f ...
一。概念 zab:zookeeper automic broadcast zab不同于paxos,但我相信(目前没真正去看细节)大体算法是一致的,所以目的是一样的: 提供高可用性的协调器功能,当然 这不能缺少以分布式提交方式(可分为two-phase commit,2pc;three-phase commit 3pc) 为基础的事务提交。   二。paxos 由于paxos是基础,就先来了解它。 //TODO         references: http://rdc.taobao.com/team/jm/archives/397 http://rdc.taobao ...
search architecture  
component start stop        client test hdfs start-dfs.sh stop-dfs.sh jps; hadoop fs -ls . mapred start-mapred.sh stop-mapred.sh jps; hadoop jar hadoop-xx.example.jar wordcount input output hbase start-hbase.sh stop-hbase.sh hbase ...
**refer to zookeeper 3.2.2** zookeeper 利用场合: a.全局配置服务. 其实相当于是利用了zk的高可用性和快速访问的特点,可以将某些全局属性置于其中,当然 由于每个znode是1m存储上限,所以不能是大量的数据.事实上,可以把zk看成是高可用的文件系统也是可以的(high available file system)   b.锁服务 由于zk有EPHEMERAL_SEQUENTIAL创建znode的模式,所以当加入 一个新node时,自动在后缀加1;同时由于是ephemeral的,即便lock znode死了,其它znodes也可以重新进行lea ...

hbase architecture

hbase's architecture overview: note: * why hbase use zookeeper but hadoop? hbase use zk to implements the heartbeat mechanism ,and hadoop use build-in heartbeat to detect node states and assign tasks;of course this will simly the code complexcity and decouple easily.   * HMaster ...
refer to 0.20.6 version ================== 1  ----- use hbase's built in-zookeeper instance  as coordinator           2----- use zookeeper cluster as coordinator within this intallition,i met with a puzzle to this, here are the steps for installation: 1)configure the hba ...
refer to 0.20.6 version this is a little different from standalone install ,as hbase will use pesudo/real cluster hadoop .so some diferences are listed below: A.hbase-site.xml 1)hbase.rootdir u should set it with the hadoop  hdfs url,e.g. hdfs://url-to-hdfs:<port>/path-shared-by-regionser ...
Global site tag (gtag.js) - Google Analytics