crawl 脚本用来实现 nutch 中对于网页的抓取 分析 索引工作。
把工程下下来之后 ,进入到 bin 目录:
两个脚本文件 crawl nutch
crawl 是对nutch 的进一步封装
首先我们看一下他的注释:
# UNLIKE THE NUTCH ALL-IN-ONE-CRAWL COMMAND THIS SCRIPT DOES THE LINK INVERSION AND
# INDEXING FOR EACH SEGMENT
是的,正如注释中所说的,他为每一个segment 做抓取,倒排和索引工作。
略过一般常规性的判断,参数检查,他迎来了他的第一步:
inject
# initial injection
$bin/nutch inject $CRAWL_PATH/crawldb $SEEDDIR
这一步执行了 inject 操作, 咱们看看这一步是干什么的
打开 nutch 找到这么一句话:
elif [ "$COMMAND" = "inject" ] ; then
CLASS=org.apache.nutch.crawl.Injector
这就找到了程序的入口,咱们看一看。
整个项目都是构建在hadoop上的 , 我喜欢。
既然是hadoop,咱们就看看他是如何使用 mapreduce的。
Map中:
用咱们自己手动给出的url的集合作为输入, 拿到这个url的信息. 一些配置信息可能出现在 url的这个文件中,尽可能解析出来, 比如抓取间隔时间。
然后是规范化一些url ,用代码里的单词叫:urlNormalizers.normalize
这里用了责任链来处理这些url,责任链中定义了很多规范化的规则,传入scope参数,指定需要过哪些链。plugin的代码打成了一个jar包放在plugins 目录下,除了解压源代码,我还没找到什么好方法看他们到底干了什么, 以后心情好,可能拿出来讲一讲,今天就算了。咱们继续往下看。
然后是过滤,filters.filter(url); 跟规范化用的是差不多的流程,会过滤掉指定的url,比如拉黑的,一些前缀后缀不合格的等等,也是以插件的形式提供的。
scfilters.injectedScore(value, datum); 把分数的信息插进去,暂时不知道有什么用,先放着。
然后 map 输入了 , key是这个url,value是url的一些信息,比如抓取间隔是多少等等。
第二个Mapper
他的逻辑写的很奇怪,我差点看走眼, 紧接着他是用CrawlDbFilter 作为mapper,又做了个处理。
这个过程又把规范化和 filter过了一遍。个人估计是为了后续重新加入url,已经应对不同的状态做的额外的处理。
Reduce中:
首先会修改这个url的状态, 每个有关的url的信息中会携带一些关于url的状态, 在map中新加的状态是STATUS_INJECTED, 在reduce中会改成STATUS_DB_UNFETCHED ,然后就输出了,输出到crawlDB
总结,就是做了一些 规范化和 过滤。迫不及待的我要看下一步了。
generate
elif [ "$COMMAND" = "generate" ] ; then
CLASS=org.apache.nutch.crawl.Generator
第一个mapred中, 竟然 mapper,partitioner,reducer都是同一个类,Selector.class 看到这里笔者格外兴奋。
当然输入是crawlDB的位置,map的操作是过滤url这个万年不变的操作, 然后矫正抓取时间间隔,如果时间还早着,直接推出,否则,通过一定的filter给这些url打分,输出的竟然是得分,一个封装url和相关信息的对象。
partition 直接把同一个host 或者ip的url分到同一个reduce上,首先,会是得分高的url先弄,这就是为什么要拿score 作为key,作为map的输出,根据各种计算,算出这个url应该输出到哪个segment中,然后输出跟map一样的东西,只不过url相关信息中加入了 segment 的信息,然后通过Comparator 将同一个segment输入到一个文件中。
第二个mapred是更新crawldb, 这样下次就不会去重复抓同样的url了。
操作很简单,最终目标就是把时间信息设置进去,以便于下次判断。
然后重命名老的crawldb, 把更新后的放进去。
fetch
elif [ "$COMMAND" = "fetch" ] ; then
CLASS=org.apache.nutch.fetcher.Fetcher
这个流程比较简单,只有一个map,他实现的是maprunner ,所以我们看他的run方法。
这是一个典型的生产者消费者模式,生产者不断的从segment中读取数据,往队列里放,消费者就从队列里面取了,同样用插件的形式封装访问协议,根据不同的返回码,做不同的处理,目前只讨论成功的情况,我们会把成功内容输出,修改状态码。
总之,感觉这就是做了一个框架,所有细节的内容全在 插件里面。需要做爬虫的同学应该解读的是插件的代码。
相关推荐
【作品名称】:基于servlet+jsp+mysql实现的影视管理系统【课程设计】 【适用人群】:适用于希望学习不同技术领域的小白或进阶学习者。可作为毕设项目、课程设计、大作业、工程实训或初期项目立项。 【项目介绍】: 基于servlet+jsp+mysql实现的影视管理系统【课程设计】 基于servlet+jsp+mysql实现的影视管理系统【课程设计】 Java Web课程设计,基于servlet+jsp+ajax+mysql做的影视管理系统 运行环境: Tomcat 9.0 JDK 1.8 MySQL 8.0 后台管理账号密码均为:root,项目依赖:lib 目录 【资源声明】:本资源作为“参考资料”而不是“定制需求”,代码只能作为参考,不能完全复制照搬。需要有一定的基础看懂代码,自行调试代码并解决报错,能自行添加功能修改代码。
kernel-5.15-ky10-x86.tar.gz
【作品名称】:基于AT89C51 单片机为核心器件,程序设计采用C 语言,Keil 软件编译程序,配以相关外围接口电路,实现了方波、锯齿波、正弦波、三角波、梯形波五种特定波形的产生【论文+源码】 【适用人群】:适用于希望学习不同技术领域的小白或进阶学习者。可作为毕设项目、课程设计、大作业、工程实训或初期项目立项。 【项目介绍】:本设计中的波形发生器系统要求基于51单片机,因此选用以AT89C51单片机作为整个系统的控制核心,应用其强大的接口功能,构成整个波形发生器的硬件系统。使用C 语言对单片机编程可产生相应的正弦波,方波,三角波,锯齿波梯形波波形信号。在程序运行时,当接收到按键信息后,需要输出某种波形时,调用相应的中断服务子程序和波形发生程序,经电路的数/模转换器和运算放大器处理后,从信号发生器的输出端口输出即可得到要求的波形。 当需要改变频率时只需要改变单片机的波形发生程序中的递增或者递减变量即可。 【资源声明】:本资源作为“参考资料”而不是“定制需求”,代码只能作为参考,不能完全复制照搬。需要有一定的基础看懂代码,自行调试代码并解决报错,能自行添加功能修改代码。
基于java的法律咨询系统设计与实现.docx
适用于元营销 API 的 Python SDK适用于 Python 的 Facebook Business SDK 介绍Facebook Business SDK是一站式服务,可帮助我们的合作伙伴更好地服务于他们的业务。合作伙伴正在使用多个 Facebook API 来满足其客户的需求。采用所有这些 API 并在各个平台上保持最新状态可能非常耗时,而且最终会造成高昂的成本。为此,Facebook 开发了 Business SDK,将其许多 API 捆绑到一个 SDK 中,以简化实施和维护。Business SDK 是 Marketing API SDK 的升级版,其中包括 Marketing API 以及来自不同平台(如 Pages、Business Manager、Instagram 等)的许多 Facebook API。快速入门商业SDK入门指南Python 目前是我们第三方开发人员最常用的语言。是一个 Python 包,它提供了您的 Python 应用程序与Business SDK 内的 Facebook APIfacebook_business之间的
数学建模培训资料 数学建模实战题目真题答案解析解题过程&论文报告 公交车调度的运作数学模型 共12页.pdf
smart-http 是一款可编程的 Http 应用微内核,方便用户根据自身需求进行 Server 或 Client 的应用开发。支持GET、POST的 HTTP 请求。提供了 URL 路由组件,可以快速搭建一套静态服务器。支持部分 RFC2612 规范,后续会逐渐完善。支持 Https 协议,由 smart-socket 为其赋能。具备文件上传的能力。支持 websocket、Cookie支持 Server、Client 开发
新闻资讯系统 微信小程序+SpringBoot毕业设计 源码+数据库+论文+启动教程 项目启动教程:https://www.bilibili.com/video/BV1oiBpYcEBp
高校师生工作室-JAVA-基于微信小程序的高校师生工作室管理系统的设计与实现
基于java的常见小儿疾病中医护理系统设计与实现.docx
本教程播放列表涵盖了 Python 中的数据结构和算法。每个教程都有数据结构或算法背后的理论、BIG O 复杂性分析和可供练习的练习。使用 Python 的数据结构和算法本教程涵盖了 Python 中的数据结构和算法。每个教程都包含数据结构或算法背后的理论、BIG O 复杂度分析以及可供练习的练习。要观看视频,您可以访问播放列表https://www.youtube.com/playlist?list=PLeo1K3hjS3uu_n_a__MI_KktGTLYopZ12订阅 codebasics youtube 频道https://www.youtube.com/c/codebasics
数学建模学习资料 蒙特卡罗方法课件教程 第2章.随机数 共29页.pptx
python实现基于CNN网络的新闻数据集文本分类源码+数据集(Python期末大作业),个人大三学期的期末大作业、经导师指导并认可通过的高分大作业设计项目,评审分98分。主要针对计算机相关专业的正在做大作业的学生和需要项目实战练习的学习者,可作为课程设计、期末大作业。 python实现基于CNN网络的新闻数据集文本分类源码+数据集(Python期末大作业)python实现基于CNN网络的新闻数据集文本分类源码+数据集(Python期末大作业),个人大三学期的期末大作业、经导师指导并认可通过的高分大作业设计项目,评审分98分。主要针对计算机相关专业的正在做大作业的学生和需要项目实战练习的学习者,可作为课程设计、期末大作业。python实现基于CNN网络的新闻数据集文本分类源码+数据集(Python期末大作业),个人大三学期的期末大作业、经导师指导并认可通过的高分大作业设计项目,评审分98分。主要针对计算机相关专业的正在做大作业的学生和需要项目实战练习的学习者,可作为课程设计、期末大作业。python实现基于CNN网络的新闻数据集文本分类源码+数据集(Python期末大作业),个人大
中小学知识产权教育试点学校申报表.doc
基于django的音乐推荐系统.zip
在建工程涉及专项行动情况检查表.docx
本项目是一个基于Python技术的学生管理系统,采用Django框架进行开发,旨在为计算机相关专业的学生提供一个实践性强、功能全面的管理系统,以帮助他们完成毕业设计或进行项目实战练习。 系统实现了对学生信息、课程信息、成绩、考勤等多方面的管理功能。学生信息管理包括学生基本信息的增删改查;课程信息管理允许管理员设置课程信息,包括课程名称、授课老师、学分等;成绩管理功能使学生和教师能够录入、查看和修改成绩;考勤管理则方便教师记录学生的出勤情况。 该项目采用B/S架构,前端使用HTML、CSS、JavaScript等技术,后端使用Python语言和Django框架,数据库采用MySQL。Django框架提供了强大的后台管理功能,使得系统管理更加便捷。 通过开发这个项目,学生不仅能提升自己的编程能力,还能学习到如何构建一个实际应用的系统,对于即将步入职场的学生来说,具有很高的实用价值。
适用于 Python 的 Splunk 软件开发工具包参考文档适用于 Python 的 Splunk Enterprise 软件开发工具包版本 2.1.0适用于 Python 的 Splunk Enterprise 软件开发套件 (SDK) 包含库代码,旨在使开发人员能够使用 Splunk 平台构建应用程序。Splunk 平台是一个搜索引擎和分析环境,它使用分布式 map-reduce 架构来有效地索引、搜索和处理大型时变数据集。Splunk 平台深受系统管理员的欢迎,用于聚合和监控 IT 机器数据、安全性、合规性以及各种其他场景,这些场景都需要有效地从大量时间序列数据中索引、搜索、分析和生成实时通知。Splunk 开发者平台使开发人员能够利用 Splunk 平台所使用的相同技术来构建令人兴奋的新应用程序。开始使用 Python 版 Splunk SDK开始使用 Python 版 Splunk Enterprise SDKSplunk Enterprise SDK for Python 包含库代码,其示例位于splunk-app-examples存储库
分布式事务练习
家庭财务管理系统 微信小程序+SSM毕业设计 源码+数据库+论文+启动教程 项目启动教程:https://www.bilibili.com/video/BV1BfB2YYEnS