nutch学习1

wangflood

浏览: 42339 次
性别:
来自: 深圳

最近访客更多访客>>

SoftHt

kingdelee

DrCool

nothing.whoami

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

算法多线程

inject 
inject操作调用的是nutch的核心包之一crawl包中的类Injector 
作用: 
      将url集合进行格式化和过滤，消除其中的非法url，并设定 
       url状态(UNFETCHED)，按照一定方法进行初始化 
      将url进行合并，消除重复url入口 
      将url及其状态，分值传入crawldb数据库，与原数据库中重复的则删除旧的，更换新的 
inject操作结果:crawldb数据库内容得到更新，包括url及其状态 
generate 
   generate操作调用的是crawl包中的类generator 
   generate操作主要作用 
   从crawldb数据库中将url取出并进行过滤 
   对url进行排序，通过域名，链接数和一种hash算法综合进行降序排列 
    将排列列表写入segment 
generate操作结果:创建了抓取列表，存放在generate文件夹下 
以时间为文件夹名称。循环抓取多少次，segment文件夹下就会有多少子文件夹 
fetch 
      抓取，按照segment文件夹下的抓取列表进行 
      抓取过程中，页面的url地址可能因为链接发生改变,从而需要更新url 
      抓取采用多线程方式进行，以提高抓取速度 
      fetch操作过程中调用了parse操作 
fetch操作结果:将页面内容抓取下来，存于segment目录下 
parse  (parse包中的类ParseSegment) 
解析segment中同fetch得到的页面，并进行整理 
将页面分为parsr-date和parse-text 
parse-date保存的是页面的题名，作者，日期，链接 
parse-text中保存的是页面的文本内容 
parse:将fetch得到的页面解析为text和date 
updatedb  (crawl包中的类CrawlDb) 
对crawldb进行更新。增加新的url 
索引过程可分为三个主要操作阶段 
将数据转换为文本(采用plugin机制) 
分析文本 
将分析过的文本保存到数据库中