Nutch源代码解读--3 -

wwkevin811

浏览: 6641 次
性别:
来自: 福州

最近访客更多访客>>

JiaQ

majesty520

半笔闪

vj3690

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

2012-04 ( 3)
更多存档...

Nutch源代码解读--3

博客分类：

Nutch

Nutch

以上是Hadoop的基本流程，如果需要详细连接可以登入http://hadoop.apache.org阅读更加详细地资料。这里我对其先介绍下简要地。等下结合nutch里如何使用这些实现并行计算地。 Hadoop主要分为2个部分，一个是分布式文件系统，一个是MapReduce的编程模型或者说一个框架。MapReduce相信大家都会了解一点（http://labs.google.com/papers/mapreduce.html）.以上就是Hadoop提供地MapReduce的编程模型。首先把输入的每个大文件，利用InputFormatter提供地getSplites()把一个大文件拆分成小块，再利用InputFormatter提供的RecordReader的格式进行读取把一个InputSplits转为init Key-value pairs.启动一个Mapper Task把输入的Init Key-value Pairs进行相应的处理，转化为Intermediate Key-value paris，这个时候Hadoop的框架会协助这些产生值进行Group，以及按照提供的Partiion Class对结果进行分区，那么分区的个数就是以后Reduce Task的个数。（当然还可以提供Combine Class对本机局部的输出信息进行预处理，这样减少了Reduce过程读入的信息量）.Mapper Task的结果一般保存在SequenceFile Class里。如果没有定义Reduce Class 那么默认就吧Mapper Class的中间Key-values按照提供的OutputFormatter进行输出。如果有定义了Reduce Task,那么就会先执行Reduce Task,过程是：首先从分布在各个Servers上的相关Key的所有Partition数据都Copy到本机Local的文件系统中，再新建一个文件用与存储，同时对于这些Key-values进行Merge,Sort操作。接下来就是简单地通过遍历这个文件，One Key- One Iterator,进行遍历，利用提供的OutputFormatter将结果输出到文件系统。（^-^我的理解就是上面这样咯.如果有什么不对的地方，希望大家指出来）. 下面就是具体结合这个fetcher过程里的并行计算代码，来具体领悟下吧。首先来下下Fetcher.fetch()这个crawl main()里调用的方法吧。 Mapper方法： publicclass Fetcher extends ToolBase implements MapRunnable { publicvoid fetch(Path segment, int threads) throws IOException { JobConf job = new NutchJob(getConf());//通过Configuration新建一个JobConf job.setJobName("fetch " + segment);//命名JobName job.setInputPath(new Path(segment, CrawlDatum.GENERATE_DIR_NAME));//输入Map-Reduce的Input路径 job.setInputFormat(InputFormat.class);//设置InputFormat提供RecordReader以及InputSplits，对照之前的图 job.setMapRunnerClass(Fetcher.class);//设置Mapper Class job.setOutputPath(segment);//设置Mapper-Reduce Output输出路径 job.setOutputFormat(FetcherOutputFormat.class);//设置OuptFormater提供ReportWriter进行输出 job.setOutputKeyClass(Text.class);//输出的Key Class job.setOutputValueClass(FetcherOutput.class);//输出的　Value Class JobClient.runJob(job);//执行Hadoop Map-Reduce Task,calling run(RecordReader,OutputCollectort,Reporter) } . . . publicvoid run(RecordReader input, OutputCollector output, Reporter reporter) throws IOException { //执行已经经过InputFormat的处理，提供了RecordReader,reporter,output，进行Ｍapper Task .设置这些使得在FectcherThead内部线程里，可以使用input.next()读取Mapper Input this.input = input; this.output = output; this.reporter = reporter;//底下是启动一个FetcherThread的，具体内容之前的1，2已经提及 } 在以上的Mapper Task执行完之后，由于没有指定Reduce方法所以默认把Mapper Intermediate Key-value作为输出.具体地可以看FetcherOutputFormat类，里面提供了ReportWriter对结果进行输出。这个就是Hadoop执行这个Fetcher的具体流程了。当然有一些map-reduce Task并没有使用实现这个MapRunnbale的方法，而是使用Mapper这个接口，通过写里面的map(WritableComparable, Writable, OutputCollector, Reporter)方法，来对输入的key-value进行相应地处理。比如默认地CrawlDb.createJob(Configuration, Path)里设置地默认的Mapper类CrawlDBFilter这个mapper类。具体大概地执行流程也是之前那样地。介绍到这里，希望大家了解了Map-Reduce在Hadoop里怎么使用地，然后可以更好地看懂Nutch代码哈哈。 ^-^有问题，或者我有什么理解不对的地方，欢迎批评指点。Nutch学习笔记待续~~~~

分享到：

Nutch源代码解读--2

2012-04-30 18:49
浏览 1415
评论(0)
论坛回复 / 浏览 (0 / 1708)
分类:开源软件
查看更多

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

apache-nutch-1.6-src.tar.gz: 这个`apache-nutch-1.6-src.tar.gz`文件包含了Nutch 1.6的源代码，允许开发者深入研究其内部机制，定制自己的爬虫需求，或者为项目贡献代码。源代码包`apache-nutch-1.6`中通常包含以下几个关键部分： 1. **源...

Nutch相关框架视频教程（1-20）(PDF): 11. **安装Subversion和Ant**：首先需要安装Subversion用于获取Nutch源代码，并安装Ant用于构建项目。 12. **获取Nutch源码**：使用SVN命令从Apache仓库中检出指定版本的Nutch源代码。 13. **构建项目**：使用Ant...

《基于YOLOv8的核废料运输容器表面污染监测系统》（包含源码、可视化界面、完整数据集、部署教程）简单部署即可运行。功能完善、操作简单，适合毕设或课程设计.zip: 资源内项目源码是来自个人的毕业设计，代码都测试ok，包含源码、数据集、可视化页面和部署说明，可产生核心指标曲线图、混淆矩阵、F1分数曲线、精确率-召回率曲线、验证集预测结果、标签分布图。都是运行成功后才上传资源，毕设答辩评审绝对信服的保底85分以上，放心下载使用，拿来就能用。包含源码、数据集、可视化页面和部署说明一站式服务，拿来就能用的绝对好资源！！！项目备注 1、该资源内项目代码都经过测试运行成功，功能ok的情况下才上传的，请放心下载使用！ 2、本项目适合计算机相关专业(如计科、人工智能、通信工程、自动化、电子信息等)的在校学生、老师或者企业员工下载学习，也适合小白学习进阶，当然也可作为毕设项目、课程设计、大作业、项目初期立项演示等。 3、如果基础还行，也可在此代码基础上进行修改，以实现其他功能，也可用于毕设、课设、作业等。下载后请首先打开README.txt文件，仅供学习参考, 切勿用于商业用途。

《基于YOLOv8的智慧社区独居老人生命体征监测系统》（包含源码、可视化界面、完整数据集、部署教程）简单部署即可运行。功能完善、操作简单，适合毕设或课程设计.zip: 《基于YOLOv8的智慧社区独居老人生命体征监测系统》（包含源码、可视化界面、完整数据集、部署教程）简单部署即可运行。功能完善、操作简单，适合毕设或课程设计

Android Studio Meerkat 2024.3.1 Patch 1（android-studio-2024.3.1.14-mac.zip.001）: Android Studio Meerkat 2024.3.1 Patch 1（android-studio-2024.3.1.14-mac.dmg）适用于macOS Intel系统，文件使用360压缩软件分割成两个压缩包，必须一起下载使用： part1: https://download.csdn.net/download/weixin_43800734/90557060 part2: https://download.csdn.net/download/weixin_43800734/90557056

侧轴承杯加工工艺编制及夹具设计.zip: 侧轴承杯加工工艺编制及夹具设计.zip

NASA数据集锂电池容量特征提取（Matlab完整源码和数据）: NASA数据集锂电池容量特征提取（Matlab完整源码和数据）作者介绍：机器学习之心，博客专家认证，机器学习领域创作者，2023博客之星TOP50，主做机器学习和深度学习时序、回归、分类、聚类和降维等程序设计和案例分析，文章底部有博主联系方式。从事Matlab、Python算法仿真工作8年，更多仿真源码、数据集定制私信。

板料折弯机液压系统设计.zip: 板料折弯机液压系统设计.zip

C6150车床的设计.zip: C6150车床的设计.zip

机器学习之KNN实现手写数字: 机器学习之KNN实现手写数字

python爬虫例程智能代理池爬虫（自适应切换代理）: python爬虫；智能切换策略，反爬检测机制

mpls-vpn-optionA-all: mpls-vpn-optionA-all

软件工程中期答辩1234567: 56tgyhujikolp[

GB 6442-86企业职工伤亡事故调查分析规则.pdf: GB 6442-86企业职工伤亡事故调查分析规则.pdf

汽车液压式主动悬架系统的设计().zip: 汽车液压式主动悬架系统的设计().zip

【更新至2024年】2000-2024年各省专利侵权案件结案数数据: 2000-2024年各省专利侵权案件结案数数据 1、时间：2000-2024年 2、来源：国家知识产权J 3、指标：专利侵权案件结案数 4、范围：31省 5、用途：可用于衡量知识产权保护水平

《基于YOLOv8的零售柜商品有效期识别系统》（包含源码、可视化界面、完整数据集、部署教程）简单部署即可运行。功能完善、操作简单，适合毕设或课程设计.zip: 资源内项目源码是来自个人的毕业设计，代码都测试ok，包含源码、数据集、可视化页面和部署说明，可产生核心指标曲线图、混淆矩阵、F1分数曲线、精确率-召回率曲线、验证集预测结果、标签分布图。都是运行成功后才上传资源，毕设答辩评审绝对信服的保底85分以上，放心下载使用，拿来就能用。包含源码、数据集、可视化页面和部署说明一站式服务，拿来就能用的绝对好资源！！！项目备注 1、该资源内项目代码都经过测试运行成功，功能ok的情况下才上传的，请放心下载使用！ 2、本项目适合计算机相关专业(如计科、人工智能、通信工程、自动化、电子信息等)的在校学生、老师或者企业员工下载学习，也适合小白学习进阶，当然也可作为毕设项目、课程设计、大作业、项目初期立项演示等。 3、如果基础还行，也可在此代码基础上进行修改，以实现其他功能，也可用于毕设、课设、作业等。下载后请首先打开README.txt文件，仅供学习参考, 切勿用于商业用途。

金融数学课程作业复现：MATLAB实现期权定价与投资组合优化（复现论文或解答问题，含详细可运行代码及解释）: 内容概要：本文档详细复现了金融数学课程作业，涵盖欧式看涨期权定价和投资组合优化两大部分。对于欧式看涨期权定价，分别采用Black-Scholes模型和蒙特卡洛方法进行了计算，并对彩虹期权进行了基于最大值的看涨期权定价。投资组合优化部分则探讨了最小方差组合、给定收益的最小方差组合、最大效用组合以及给定风险的最大收益组合四种情形，还对比了拉格朗日乘数法和二次规划求解器两种方法。文中不仅提供了详细的MATLAB代码，还有详尽的中文解释，确保每一步骤清晰明了。适合人群：金融工程专业学生、量化分析师、金融数学爱好者。使用场景及目标：①帮助学生理解和掌握金融衍生品定价的基本原理和方法；②为从事量化分析的专业人士提供实用工具和技术支持；③作为教学材料辅助高校教师讲授相关内容。其他说明：文档还包括了完整的论文结构建议，从封面页到结论，再到附录，涵盖了所有必要元素，确保提交的作业符合学术规范。此外，还特别强调了数据预处理步骤，确保代码可以顺利运行。

脉冲电解射流加工喷射装置设计(1).rar: 脉冲电解射流加工喷射装置设计(1)

ThinkPad S1 (2nd Generation) 和ThinkPad Yoga 260 用户指南V3.0.pdf: ThinkPad S1 (2nd Generation) 和ThinkPad Yoga 260 用户指南V3.0，包含如何拆机更换硬件

最近访客 更多访客>>