抓取流程－小结

博客分类：

nutch

从之前的抓取結果来分析各阶段的情况。其中蓝色表示未修改但要注意的，红色表示前后已经修改的。 injector ：只有二个seed urls（这里没有列出csdn数据） http://www.163.com/ Version: 7 #7为当前nutch的修改版本 Status: 1 (db_unfetched ) #see CrawlDatum.STATUS_DB_UNFETCHEDFetch time: Mon Jul 04 14:57:19 CST 2011 Modified ti ...

2011-07-14 11:09
浏览 1093
评论(0)
分类:开源软件

抓取流程-updatedb

博客分类：

nutch

此过程比较简单，是generate,fetch,udpatedb中的最后一环。其实就是将新发现的和抓取失败的送回crawldb/current下。过程：一。input inputpaths:contains [ crawldb/current,crawl_fetch,crawl_parse］,note:这是利用FileInputPath.addInputpath()，这意味着相当于使用多个files作为输入；但不同于MultiInputs.addInput()! additionsAllowed ：如果为false，只会更新crawldb中的urls而不会将新parsed ...

2011-07-11 23:02
浏览 947
评论(0)
分类:开源软件

抓取流程－fetcher

博客分类：

nutch

这个过程很简单,就是开启了一个maprunnable来实现自定义的输出(没有使用通常的mapper).red也是使用默认的. 过程是: 一。Fetch初始化由于它实现了MapRunnable，那么它其实是一个mapper的启动器，包括将多个输入Key－value pairs处理，然后输出的过程完全由其中的run()实现了，所以发现job中并没有定义mapper；而reduce也是使用了默认的。输入 segment：由上一过程generator的输出生成，形如segments/201106xxxxxx的格式； threads：将由多少个fetcher threa ...

2011-07-07 00:00
浏览 1469
评论(0)
分类:开源软件

抓取流程－generator

博客分类：

nutch

sele

一。topN job：对urls预处理并取topN urls by score decending. map:<url,crawldatum> -> <score,selectorentry>。urls预处理和格式转换 a.url filter b.初步处理是否fetch（当fetchtime 比当前时间滞后才fetch) c.抓取间隔处理。如果在crawl.gen.delay时间范围内，则不会再将次云抓取，这个也是索引实时度的一个主要参数。／7days／ d.scoring filter 作为sort value.其中link and op ...

2011-07-04 15:56
浏览 1104
评论(0)
分类:开源软件

抓取流程－injector

博客分类：

nutch

Web

这是一个将seed urls进行初始化为web图的过程，其中page 作为node,links作为边。另外这里的urls（每行一个，可以在url后加上相关metadata，比如，nutch.score等参数进行url crawl的定制）。过程：一。sort job 此过程主要是在m阶段进行一些url清洗,如urlnormal,urlfilter,scorefiler；r阶段进行直接输出（可以说是使用默认的）。输出使用sequence file.因为它保存了CrawlDatum object直接作为二进制保存，方便后续的merger job读取，格式是：<url,c ...

2011-06-29 02:44
浏览 1071
评论(0)
分类:非技术

1.1 nutch 基本概念

博客分类：

nutch

体育 Apache 音乐 Web BBS

爬行方式 nutch分为intract crawling(IC) and whole web crawling(WWC),其实这两者区别不大，主要是后者使用了step by step的方式来实现，而前者是一个crawl来处理整个procedure，同时有进行pagerank处理功能？。当然分步进行提供了更多的灵活性（即参数可以控），也便于观察。 WWC实现方式有内置的DmozParser针对专用urls来生成seed urls；也可以使用类IC方式，提供一个url-seed plat file。 crawl procedure 这对于IC或WWC方式都是 ...

2011-06-12 23:17
浏览 965
评论(0)
分类:编程语言

nutch 1.2 学习

博客分类：

nutch

Eclipse Hadoop 网络应用 Windows Web

现在开始对它进行研究和应用，有兴趣的一起討論。研究目的： 1.海量数据情况下hadoop的继续深入 2.分布式下爬虫和搜索的探索 3.pagerank的实际分析 4.对开源架构的学习 references: eclipse上布置(是java project而不是web project) 应用心得]nutch1.2 的eclipse windows 集成网络爬虫调研报告 Nutch架构

2011-06-07 22:53
浏览 716
评论(0)
分类:编程语言

install svn server on ubuntu

博客分类：

others

SVN Ubuntu subversion Eclipse CMS

使用svnadmin create时建立的是一个resposity,可以看作是一个root directory.如： svnadmin create /usr/local/svn/project-name 建立后可以进行acl的设置，包括认证，授权等。其中，svnserve.conf＋password是认证文件，需要在前者设置使用password模式，然后在password添加自己的密码；authz是授权文件，设定许可 chown svn root 安装过几次都是在/usr/local下，由于是root权限，所以在elcipse连接时显示 svn: Can't open f ...

2011-06-01 01:28
浏览 1230
评论(0)
分类:非技术

zookeeper 核心算法之 zab & paxos比较

博客分类：

zookeeper

算法 Hadoop Apache HTML Blog

一。概念 zab:zookeeper automic broadcast zab不同于paxos，但我相信（目前没真正去看细节）大体算法是一致的，所以目的是一样的：提供高可用性的协调器功能，当然这不能缺少以分布式提交方式(可分为two-phase commit,2pc;three-phase commit 3pc) 为基础的事务提交。二。paxos 由于paxos是基础，就先来了解它。 //TODO references: http://rdc.taobao.com/team/jm/archives/397 http://rdc.taobao ...

2011-05-25 23:46
浏览 7613
评论(0)
分类:编程语言

search cluster with zookeeper

博客分类：

zookeeper

search architecture

2011-05-25 20:38
浏览 721
评论(0)
分类:非技术

components commands comparation

博客分类：

hadoop

HBase Hadoop

component start stop client test hdfs start-dfs.sh stop-dfs.sh jps; hadoop fs -ls . mapred start-mapred.sh stop-mapred.sh jps; hadoop jar hadoop-xx.example.jar wordcount input output hbase start-hbase.sh stop-hbase.sh hbase ...

2011-05-22 20:50
浏览 790
评论(0)
分类:非技术

zookeeper features(summary)

博客分类：

zookeeper

ITeye Blog

**refer to zookeeper 3.2.2** zookeeper 利用场合： a.全局配置服务. 其实相当于是利用了zk的高可用性和快速访问的特点,可以将某些全局属性置于其中,当然由于每个znode是1m存储上限,所以不能是大量的数据.事实上,可以把zk看成是高可用的文件系统也是可以的(high available file system) b.锁服务由于zk有EPHEMERAL_SEQUENTIAL创建znode的模式,所以当加入一个新node时,自动在后缀加1；同时由于是ephemeral的，即便lock znode死了，其它znodes也可以重新进行lea ...

2011-05-22 11:32
浏览 1065
评论(0)
分类:非技术

hbase architecture

博客分类：

hbase

HBase

hbase's architecture overview: note: * why hbase use zookeeper but hadoop? hbase use zk to implements the heartbeat mechanism ,and hadoop use build-in heartbeat to detect node states and assign tasks;of course this will simly the code complexcity and decouple easily. * HMaster ...

2011-05-19 23:22
浏览 2079
评论(0)
分类:非技术

hbase cluster install

博客分类：

hbase

HBase

refer to 0.20.6 version ＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝ 1 －－－－－ use hbase's built in-zookeeper instance as coordinator 2－－－－－ use zookeeper cluster as coordinator within this intallition,i met with a puzzle to this, here are the steps for installation: 1)configure the hba ...

2011-05-18 01:06
浏览 1091
评论(0)
分类:非技术

hbase pseudo install

博客分类：

hbase

HBase zk Hadoop XML C

refer to 0.20.6 version this is a little different from standalone install ,as hbase will use pesudo/real cluster hadoop .so some diferences are listed below: A.hbase-site.xml 1)hbase.rootdir u should set it with the hadoop hdfs url,e.g. hdfs://url-to-hdfs:<port>/path-shared-by-regionser ...

2011-05-18 01:05
浏览 788
评论(0)
分类:非技术

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

抓取流程－小结

抓取流程-updatedb

抓取流程－fetcher

抓取流程－generator

抓取流程－injector

1.1 nutch 基本概念

nutch 1.2 学习

install svn server on ubuntu

zookeeper 核心算法之 zab & paxos比较

search cluster with zookeeper

components commands comparation

zookeeper features(summary)

hbase architecture

hbase cluster install

hbase pseudo install

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

最近访客更多访客>>