heipark

浏览: 2101775 次
性别:
来自: 北京

最近访客更多访客>>

chenlmnet

ninedragon

w11h22j33

lbyzx123

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

Hadoop源码学习系列—— HAR归档Job设计要点

博客分类：

hadoop
hadoop源码

hadoop har job

hadoop版本：CDH3u2

hadoop 中生成har文件是通过mapred job实现的，这个主要的class是“HadoopArchives.java”，它是tools包里面的一个类。这个类有800多行code，包含map reduce 自定义的inputformat和其它辅助方法，细读起来还需要花点时间。

一个har job命令行举例：

# 归档"/fc/src/2011/1[0-2]"这三个文件夹到"/fc/har/2011/"
hadoop archive -archiveName combine.har -p /fc/src/2011/ 10 11 12 /fc/har/2011/

几个重要的知识点：

1. 生成文件列表文件

举例命令：

sudo -u hdfs hadoop archive -archiveName src.har -p /user/heipark/fc/ /user/heipark

下面是input path，即"/user/heipark/fc/" 目录结构（红色为文件夹）：

/user/heipark/fc/

- 0000

- 1111

- 2222

- 3333

- 4444

+ sub1

- 5555

+ dir1

- 7777

- 8888

+ sub2

- 6666

运行命令过程中生成如下文件："/user/hdfs/.staging/har_93ftj7/_har_src_files"

har_93ftj7：har为固定前缀，后面为随机字符串

_har_src_files：固定文件名，它是输入文件的meta文件，算法采用广度优先，内容如下（为了便于阅读，版式上略做调整）：

_har_src_files文件如下：

0 / dir 0000 1111 2222 3333 4444 sub1 sub2 // ①
1066026506 /0000 file // ②
1066026506 /1111 file // ②
38268381 /2222 file   // ②
62016424 /3333 file    // ②
54855349 /4444 file    // ②

0 /sub1 dir 5555 dir1
909247 /sub1/5555 file

0 /sub1/dir1 dir 7777 8888
34193078 /sub1/dir1/7777 file
2095606385 /sub1/dir1/8888 file

0 /sub2 dir 6666
95644473 /sub2/6666 file

① 这行的信息表示top level path的文件夹和文件。"0"：dir的大小都为0；"/"：表示当前为输入文件的top level path；"dir"：表示当前是一个dir；"1111 2222 3333 4444 sub1 sub2"：top level path 下面的文件和文件夹

② 这4行表示"top level path"下面的5个文件，第一列为文件大小，第二列为文件名，第三列标识当前是一个文件

2. 如何确定map和reduce task数量

2.1 map task数量：

公式：

totalSize / partSize

totalSize：所有输入文件总大小，这个是在递归文件列表的时候累加得来的。

partSize：默认为2GB，它是一个常量，只能通过修改代码变更。

2.2 reduce 数量

reduce数量为1。reduce主要作用是汇总map输出的文件meta 信息，并生成index文件。

3. 关于"HArchiveInputFormat"

它的作用是读取"_har_src_files"内容（input文件列表），并根据split size（totalSize/numMapTask）生成input split。

这里生成split过程比较巧妙，FileSplit是根据"_har_src_files"的偏移量分割的，简单说就是一行一行读取，并累加读取文件大小，当达到"split size"就输出一个FileSplit，最终将不足split size的文件放到一个split中，代码如下：

new FileSplit(src, startPos, size, (String[]) null)

src："_har_src_files"文件

startPos：一个split开始行的的bytes，这个偏移是_har_src_files文件的bytes偏移

size：一个split，在_har_src_files文件bytes偏移大小，可以这样理解：startPos + size = endPos

4. 关于Input Path

因为map task不直接读取input file，而是通过"_har_src_files"读取自己处理的FileSplit中文件，所以map task真正的输入路径是"_har_src_files"所在目录。

FileInputFormat.addInputPath(conf, jobDirectory);

jobDirectory：conf中的“har.job.dir”，就是"_har_src_files"所在文件夹。

5. 关于Map Task

Map Task的输入是"_har_src_files"文件中属于当前map处理的行。

map输出的key是当前文件或者文件夹名称的hash值，value是文件或者文件夹的meta信息。

如果当前行是"dir"，处理逻辑如下：

# "_har_src_files"中一个dir行
# 0 / dir 0000 1111 2222 3333 4444 sub1 sub2

①输出到reduce的信息
/ dir none 0 0 0000 1111 2222 3333 4444 sub1 sub2

"/"：目前处理的路径
"dir none 0 0"：表示文件类型是dir
"0000 1111 2222 3333 4444 sub1 sub2"：表示"/"路径下包含的文件和路径

如果当前行为"file"，处理逻辑如下：

# "_har_src_files"文件行
# 1066026506 /0000 file

① copy 文件"0000"到har文件内"part-X"中

② 输出到reduce信息
/0000 file part-1 0 1066026506

"/0000"：当前处理文件

"file"：当前处理的是一个文件

"part-1"：文件"0000"输出文件名

"0"：文件"0000"在"part-1"中起始偏移bytes

"1066026506"：问"0000"文件大小

6. 关于reduce

reduce的工作就是生成"_masterindex"、"_index"两个索引文件。

先说"_index"文件，它直接汇总并输出map端output的value值，如下：

"_index"文件：

/ dir none 0 0 0000 1111 2222 3333 4444 sub1 sub2
/0000 file part-1 0 1066026506
/1111 file part-1 1066026506 1066026506
/2222 file part-1 2132053012 38268381
/3333 file part-1 2170321393 62016424
/4444 file part-0 0 54855349
/sub1 dir none 0 0 5555 dir1
/sub2 dir none 0 0 6666
/sub1/5555 file part-0 54855349 909247
/sub1/dir1 dir none 0 0 7777 8888
/sub2/6666 file part-2 0 95644473
/sub1/dir1/7777 file part-0 55764596 34193078
/sub1/dir1/8888 file part-0 89957674 2095606385

再说“_masterindex” ，它是"_index"文件的索引文件。每一行索引一批文件（每批1000个，不足1000个算也算一批）它的第一行为“1”，这个值是version信息，这也许HarFileSystem开发人员打算支持对har文件的更新留下的功能。

reduce的输入value是经过排序的，又因为key为value中path部分的hash，所以reduce的key值是追加变大的。

本例"_masterindex"：

#文件version
1

#startIndex endIndex startPos indexStream.getPos()
0 771396412 0 493

startIndex：第一个文件startIndex(即文件path的hash）。默认值为0，处理玩一批文件后，会把endIndex赋值给startIndex。

endIndex ：最后一个文件的endIndex （即文件path的hash值）

startPos ：本批文件在"_index"文件中bytes偏移值

indexStream.getPos()：本批文件在"_index"中结束bytes值

-- heipark

1
顶

1
踩

分享到：

chorme使用技巧 | Java内存参数设置笔记

2012-01-28 19:12
浏览 3101
评论(0)
分类:编程语言
查看更多

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

[AB PLC例程源码][MMS_044666]Translation N-A.zip: AB PLC例程代码项目案例【备注】 1、该资源内项目代码都经过测试运行成功，功能ok的情况下才上传的，请放心下载使用！有问题请及时沟通交流。 2、适用人群：计算机相关专业(如计科、信息安全、数据科学与大数据技术、人工智能、通信、物联网、自动化、电子信息等)在校学生、专业老师或者企业员工下载使用。 3、用途：项目具有较高的学习借鉴价值，不仅适用于小白学习入门进阶。也可作为毕设项目、课程设计、大作业、初期项目立项演示等。 4、如果基础还行，或热爱钻研，亦可在此项目代码基础上进行修改添加，实现其他不同功能。欢迎下载！欢迎交流学习！不清楚的可以私信问我！

kolesar_3cd_01_0716.pdf: kolesar_3cd_01_0716

latchman_01_0108.pdf: latchman_01_0108

matlab程序代码项目案例：matlab程序代码项目案例MPC在美国高速公路场景中移动的车辆上的实现.zip: matlab程序代码项目案例【备注】 1、该资源内项目代码都经过测试运行成功，功能ok的情况下才上传的，请放心下载使用！有问题请及时沟通交流。 2、适用人群：计算机相关专业(如计科、信息安全、数据科学与大数据技术、人工智能、通信、物联网、自动化、电子信息等)在校学生、专业老师或者企业员工下载使用。 3、用途：项目具有较高的学习借鉴价值，不仅适用于小白学习入门进阶。也可作为毕设项目、课程设计、大作业、初期项目立项演示等。 4、如果基础还行，或热爱钻研，亦可在此项目代码基础上进行修改添加，实现其他不同功能。欢迎下载！欢迎交流学习！不清楚的可以私信问我！

pimpinella_3cd_01_0716.pdf: pimpinella_3cd_01_0716

petrilla_01_0308.pdf: petrilla_01_0308

[AB PLC例程源码][MMS_041452]Speed Controls in Plastic Extrusion.zip: AB PLC例程代码项目案例【备注】 1、该资源内项目代码都经过测试运行成功，功能ok的情况下才上传的，请放心下载使用！有问题请及时沟通交流。 2、适用人群：计算机相关专业(如计科、信息安全、数据科学与大数据技术、人工智能、通信、物联网、自动化、电子信息等)在校学生、专业老师或者企业员工下载使用。 3、用途：项目具有较高的学习借鉴价值，不仅适用于小白学习入门进阶。也可作为毕设项目、课程设计、大作业、初期项目立项演示等。 4、如果基础还行，或热爱钻研，亦可在此项目代码基础上进行修改添加，实现其他不同功能。欢迎下载！欢迎交流学习！不清楚的可以私信问我！

强化学习驱动下DeepSeek技术创新及其对AI发展的影响: 内容概要：本文档由张卓老师讲解，重点探讨DeepSeek的技术革新及强化学习对未来AI发展的重要性。文章回顾了AI的历史与发展阶段，详细解析Transformer架构在AI上半场所起到的作用，深入介绍了MoE混合专家以及MLA低秩注意机制等技术特点如何帮助DeepSeek在AI中场建立优势，并探讨了当前强化学习的挑战和边界。文档不仅提及AlphaGo和小游戏等成功案例来说明强化学习的强大力量，还提出了关于未来人工通用智能（AGI）的展望，特别是如何利用强化学习提升现有LLMs的能力和性能。适用人群：本资料适宜对深度学习感兴趣的研究人员、开发者以及想要深入了解人工智能最新进展的专业人士。使用场景及目标：通过了解最新的AI技术和前沿概念，在实际工作中能够运用更先进的工具和技术解决问题。同时为那些寻求职业转型或者学术深造的人提供了宝贵的参考。其他说明：文中提到了许多具体的例子和技术细节，如DeepSeek的技术特色、RL的理论背景等等，有助于加深读者对于现代AI系统的理解和认识。

有师傅小程序开源版v2.4.14+前端.zip: 有师傅小程序开源版v2.4.14 新增报价短信奉告优化部分细节

[AB PLC例程源码][MMS_047333]Motor Sequence Starter with timers to start.zip: AB PLC例程代码项目案例【备注】 1、该资源内项目代码都经过测试运行成功，功能ok的情况下才上传的，请放心下载使用！有问题请及时沟通交流。 2、适用人群：计算机相关专业(如计科、信息安全、数据科学与大数据技术、人工智能、通信、物联网、自动化、电子信息等)在校学生、专业老师或者企业员工下载使用。 3、用途：项目具有较高的学习借鉴价值，不仅适用于小白学习入门进阶。也可作为毕设项目、课程设计、大作业、初期项目立项演示等。 4、如果基础还行，或热爱钻研，亦可在此项目代码基础上进行修改添加，实现其他不同功能。欢迎下载！欢迎交流学习！不清楚的可以私信问我！

商城二级三级分销系统（小程序+后台含源码）.zip: 商城二级三级分销系统（小程序+后台含源码）.zip

li_3ck_01b_0918.pdf: li_3ck_01b_0918

nicholl_3cd_01_0516.pdf: nicholl_3cd_01_0516

1995-2022年网络媒体关注度、报刊媒体关注度与媒体监督相关数据.zip: 媒体关注度是一个衡量公众对某个事件、话题或个体关注程度的重要指标。它主要反映了新闻媒体、社交媒体、博客等对于某一事件、话题或个体的报道和讨论程度。媒体监督的J-F系数（Janis-Fadner系数）是一种用于测量媒体关注度的指标，特别是用于评估媒体对企业、事件或话题的监督力度。J-F系数基于媒体报道的正面和负面内容来计算，从而为公众、研究者或企业提供一个量化工具，以了解媒体对其关注的方向和强度。本数据含原始数据、参考文献、代码do文件、最终结果。参考文献中JF系数计算公式。指标代码、年份、标题出现该公司的新闻总数、内容出现该公司的新闻总数、正面新闻数全部、中性新闻数全部、负面新闻数全部、正面新闻数原创、中性新闻数原创、负面新闻数原创，媒体监督JF系数。

[AB PLC例程源码][MMS_040315]Double INC and Double DEC of INT datatype.zip: AB PLC例程代码项目案例【备注】 1、该资源内项目代码都经过测试运行成功，功能ok的情况下才上传的，请放心下载使用！有问题请及时沟通交流。 2、适用人群：计算机相关专业(如计科、信息安全、数据科学与大数据技术、人工智能、通信、物联网、自动化、电子信息等)在校学生、专业老师或者企业员工下载使用。 3、用途：项目具有较高的学习借鉴价值，不仅适用于小白学习入门进阶。也可作为毕设项目、课程设计、大作业、初期项目立项演示等。 4、如果基础还行，或热爱钻研，亦可在此项目代码基础上进行修改添加，实现其他不同功能。欢迎下载！欢迎交流学习！不清楚的可以私信问我！

[AB PLC例程源码][MMS_047773]Convert Feet to Millimeters.zip: AB PLC例程代码项目案例【备注】 1、该资源内项目代码都经过测试运行成功，功能ok的情况下才上传的，请放心下载使用！有问题请及时沟通交流。 2、适用人群：计算机相关专业(如计科、信息安全、数据科学与大数据技术、人工智能、通信、物联网、自动化、电子信息等)在校学生、专业老师或者企业员工下载使用。 3、用途：项目具有较高的学习借鉴价值，不仅适用于小白学习入门进阶。也可作为毕设项目、课程设计、大作业、初期项目立项演示等。 4、如果基础还行，或热爱钻研，亦可在此项目代码基础上进行修改添加，实现其他不同功能。欢迎下载！欢迎交流学习！不清楚的可以私信问我！

[AB PLC例程源码][MMS_042349]How to read-write data to-from a PLC using OPC in Visual Basic 6.zip: AB PLC例程代码项目案例【备注】 1、该资源内项目代码都经过测试运行成功，功能ok的情况下才上传的，请放心下载使用！有问题请及时沟通交流。 2、适用人群：计算机相关专业(如计科、信息安全、数据科学与大数据技术、人工智能、通信、物联网、自动化、电子信息等)在校学生、专业老师或者企业员工下载使用。 3、用途：项目具有较高的学习借鉴价值，不仅适用于小白学习入门进阶。也可作为毕设项目、课程设计、大作业、初期项目立项演示等。 4、如果基础还行，或热爱钻研，亦可在此项目代码基础上进行修改添加，实现其他不同功能。欢迎下载！欢迎交流学习！不清楚的可以私信问我！

matlab程序代码项目案例：matlab程序代码项目案例论文代码多篇RMPC 鲁棒模型预测控制Paper-code-implementation.zip: matlab程序代码项目案例【备注】 1、该资源内项目代码都经过测试运行成功，功能ok的情况下才上传的，请放心下载使用！有问题请及时沟通交流。 2、适用人群：计算机相关专业(如计科、信息安全、数据科学与大数据技术、人工智能、通信、物联网、自动化、电子信息等)在校学生、专业老师或者企业员工下载使用。 3、用途：项目具有较高的学习借鉴价值，不仅适用于小白学习入门进阶。也可作为毕设项目、课程设计、大作业、初期项目立项演示等。 4、如果基础还行，或热爱钻研，亦可在此项目代码基础上进行修改添加，实现其他不同功能。欢迎下载！欢迎交流学习！不清楚的可以私信问我！

lusted_3cd_02_0716.pdf: lusted_3cd_02_0716

pepeljugoski_01_0107.pdf: pepeljugoski_01_0107

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

Hadoop源码学习系列—— HAR归档Job设计要点

几个重要的知识点：

1. 生成文件列表文件

2. 如何确定map和reduce task数量

2.1 map task数量：

2.2 reduce 数量

3. 关于"HArchiveInputFormat"

4. 关于Input Path

5. 关于Map Task

6. 关于reduce

评论

发表评论

相关推荐

cloudera CDH5 vmware中cloudera manager报错"Internal error while querying the Host "

thrift0.9.1简单教程（包含Java服务端和Java、python客户端）

yum错误“Error in PREUN scriptlet in rpm package ”

搭建cloudera yum私服

cloudera创建私服错误一例

Cloudera Manager的Hadoop配置文件管理

修改cloudera manager管理主机名（转）

cloudera manager tasktrakcer监控状态错误

cloudera manager 4.8 添加设备DNS反向解析问题

apache kafka v0.8入门遇到问题

hadoop2.0(cdh4) fs client错误"java.io.IOException: No FileSystem for scheme: hdfe"

Hadoop Combiner的几个调用时间点

Hadoop map task中Partitioner执行时机

Hadoop二次排序关键点和出现时机（也叫辅助排序、Secondary Sort）

hadoop1.0中NameNode HA的妥协方案

hdaoop2.x (CDH4、5)下使用DFS Client（包含HA）

Hadoop学习指南

cloudera cdh中hadoop-client包的作用

could only be replicated to 0 nodes instead of minReplication (=1)

Hadoop Pig获取HDFS文件名

最近访客更多访客>>