`
heipark
  • 浏览: 2101775 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论

Hadoop源码学习系列—— HAR归档Job设计要点

阅读更多

hadoop版本:CDH3u2

 

  hadoop 中生成har文件是通过mapred job实现的,这个主要的class是“HadoopArchives.java”,它是tools包里面的一个类。这个类有800多行code,包含map reduce 自定义的inputformat和其它辅助方法,细读起来还需要花点时间。

 

 一个har job命令行举例:
# 归档"/fc/src/2011/1[0-2]"这三个文件夹到"/fc/har/2011/"
hadoop archive -archiveName combine.har -p /fc/src/2011/ 10 11 12 /fc/har/2011/

 

几个重要的知识点:

1. 生成文件列表文件

 举例命令:
sudo -u hdfs hadoop archive -archiveName src.har -p /user/heipark/fc/ /user/heipark

 

下面是input path,即"/user/heipark/fc/" 目录结构(红色为文件夹):

 

/user/heipark/fc/

    - 0000

    - 1111

    - 2222

    - 3333

    - 4444

    + sub1

        - 5555

        + dir1

    - 7777

            - 8888

    + sub2

        - 6666

 

 

运行命令过程中生成如下文件:"/user/hdfs/.staging/har_93ftj7/_har_src_files"

 

har_93ftj7:har为固定前缀,后面为随机字符串

_har_src_files:固定文件名,它是输入文件的meta文件,算法采用广度优先,内容如下(为了便于阅读,版式上略做调整):

 

 _har_src_files文件如下:
0 / dir 0000 1111 2222 3333 4444 sub1 sub2   // ① 
1066026506 /0000 file  // ② 
1066026506 /1111 file  // ② 
38268381 /2222 file      // ② 
62016424 /3333 file      // ② 
54855349 /4444 file      // ② 

0 /sub1 dir 5555 dir1
909247 /sub1/5555 file

0 /sub1/dir1 dir 7777 8888
34193078 /sub1/dir1/7777 file
2095606385 /sub1/dir1/8888 file

0 /sub2 dir 6666
95644473 /sub2/6666 file

 

 

 

① 这行的信息表示top level path的文件夹和文件。"0":dir的大小都为0;"/":表示当前为输入文件的top level path;"dir":表示当前是一个dir;"1111 2222 3333 4444 sub1 sub2":top level path 下面的文件和文件夹

 

② 这4行表示"top level path"下面的5个文件,第一列为文件大小,第二列为文件名,第三列标识当前是一个文件

 

2. 如何确定map和reduce task数量

  2.1 map task数量: 

公式:
totalSize / partSize

 

    totalSize:所有输入文件总大小,这个是在递归文件列表的时候累加得来的。

    partSize: 默认为2GB,它是一个常量,只能通过修改代码变更。

  2.2 reduce 数量

  reduce数量为1。reduce主要作用是汇总map输出的文件meta 信息,并生成index文件。

 

3. 关于"HArchiveInputFormat"

  它的作用是读取"_har_src_files"内容(input文件列表),并根据split size(totalSize/numMapTask生成input split。

  这里生成split过程比较巧妙,FileSplit是根据"_har_src_files"的偏移量分割的,简单说就是一行一行读取,并累加读取文件大小,当达到"split size"就输出一个FileSplit,最终将不足split size的文件放到一个split中,代码如下:

 

 

new FileSplit(src, startPos, size, (String[]) null)

    src"_har_src_files"文件

    startPos:一个split开始行的的bytes,这个偏移是_har_src_files文件的bytes偏移

    size:一个split,在_har_src_files文件bytes偏移大小,可以这样理解:startPos + size = endPos

 

4. 关于Input Path

 

  因为map task不直接读取input file,而是通过"_har_src_files"读取自己处理的FileSplit中文件,所以map task真正的输入路径是"_har_src_files"所在目录。

 

FileInputFormat.addInputPath(conf, jobDirectory);

    jobDirectory:conf中的“har.job.dir”,就是"_har_src_files"所在文件夹。

 

 

5. 关于Map Task

  Map Task的输入是"_har_src_files"文件中属于当前map处理的行。

  map输出的key是当前文件或者文件夹名称的hash值,value是文件或者文件夹的meta信息。

 

  如果当前行是"dir",处理逻辑如下:

 

 

# "_har_src_files"中一个dir行
# 0 / dir 0000 1111 2222 3333 4444 sub1 sub2

①输出到reduce的信息
/ dir none 0 0 0000 1111 2222 3333 4444 sub1 sub2

  "/": 目前处理的路径
  "dir none 0 0":表示文件类型是dir
  "0000 1111 2222 3333 4444 sub1 sub2":表示"/"路径下包含的文件和路径

 

 

  如果当前行为"file",处理逻辑如下:

 

 
# "_har_src_files"文件行
# 1066026506 /0000 file

① copy 文件"0000"到har文件内"part-X"中

② 输出到reduce信息
/0000 file part-1 0 1066026506

 

    "/0000":当前处理文件

    "file":当前处理的是一个文件

    "part-1":文件"0000"输出文件名

    "0":文件"0000"在"part-1"中起始偏移bytes

    "1066026506":问"0000"文件大小

 

6. 关于reduce

    reduce的工作就是生成"_masterindex"、"_index"两个索引文件。

    先说"_index"文件,它直接汇总并输出map端output的value值,如下:

 

 "_index"文件:
/ dir none 0 0 0000 1111 2222 3333 4444 sub1 sub2
/0000 file part-1 0 1066026506
/1111 file part-1 1066026506 1066026506
/2222 file part-1 2132053012 38268381
/3333 file part-1 2170321393 62016424
/4444 file part-0 0 54855349
/sub1 dir none 0 0 5555 dir1
/sub2 dir none 0 0 6666
/sub1/5555 file part-0 54855349 909247
/sub1/dir1 dir none 0 0 7777 8888
/sub2/6666 file part-2 0 95644473
/sub1/dir1/7777 file part-0 55764596 34193078
/sub1/dir1/8888 file part-0 89957674 2095606385

    再说“_masterindex” ,它是"_index"文件的索引文件。每一行索引一批文件(每批1000个,不足1000个算也算一批)它的第一行为“1”,这个值是version信息,这也许HarFileSystem开发人员打算支持对har文件的更新留下的功能。

    reduce的输入value是经过排序的,又因为key为value中path部分的hash,所以reduce的key值是追加变大的。

 

      本例"_masterindex":

#文件version 


 #startIndex endIndex startPos indexStream.getPos() 
0 771396412 0 493

 

     startIndex:第一个文件startIndex(即文件path的hash)。默认值为0,处理玩一批文件后,会把endIndex赋值给startIndex。

     endIndex :最后一个文件的endIndex (即文件path的hash值)

     startPos :本批文件在"_index"文件中bytes偏移值

     indexStream.getPos():本批文件在"_index"中结束bytes值

 

 

-- heipark

 

 

 

 

1
1
分享到:
评论

相关推荐

    [AB PLC例程源码][MMS_044666]Translation N-A.zip

    AB PLC例程代码项目案例 【备注】 1、该资源内项目代码都经过测试运行成功,功能ok的情况下才上传的,请放心下载使用!有问题请及时沟通交流。 2、适用人群:计算机相关专业(如计科、信息安全、数据科学与大数据技术、人工智能、通信、物联网、自动化、电子信息等)在校学生、专业老师或者企业员工下载使用。 3、用途:项目具有较高的学习借鉴价值,不仅适用于小白学习入门进阶。也可作为毕设项目、课程设计、大作业、初期项目立项演示等。 4、如果基础还行,或热爱钻研,亦可在此项目代码基础上进行修改添加,实现其他不同功能。 欢迎下载!欢迎交流学习!不清楚的可以私信问我!

    kolesar_3cd_01_0716.pdf

    kolesar_3cd_01_0716

    latchman_01_0108.pdf

    latchman_01_0108

    matlab程序代码项目案例:matlab程序代码项目案例MPC在美国高速公路场景中移动的车辆上的实现.zip

    matlab程序代码项目案例 【备注】 1、该资源内项目代码都经过测试运行成功,功能ok的情况下才上传的,请放心下载使用!有问题请及时沟通交流。 2、适用人群:计算机相关专业(如计科、信息安全、数据科学与大数据技术、人工智能、通信、物联网、自动化、电子信息等)在校学生、专业老师或者企业员工下载使用。 3、用途:项目具有较高的学习借鉴价值,不仅适用于小白学习入门进阶。也可作为毕设项目、课程设计、大作业、初期项目立项演示等。 4、如果基础还行,或热爱钻研,亦可在此项目代码基础上进行修改添加,实现其他不同功能。 欢迎下载!欢迎交流学习!不清楚的可以私信问我!

    pimpinella_3cd_01_0716.pdf

    pimpinella_3cd_01_0716

    petrilla_01_0308.pdf

    petrilla_01_0308

    [AB PLC例程源码][MMS_041452]Speed Controls in Plastic Extrusion.zip

    AB PLC例程代码项目案例 【备注】 1、该资源内项目代码都经过测试运行成功,功能ok的情况下才上传的,请放心下载使用!有问题请及时沟通交流。 2、适用人群:计算机相关专业(如计科、信息安全、数据科学与大数据技术、人工智能、通信、物联网、自动化、电子信息等)在校学生、专业老师或者企业员工下载使用。 3、用途:项目具有较高的学习借鉴价值,不仅适用于小白学习入门进阶。也可作为毕设项目、课程设计、大作业、初期项目立项演示等。 4、如果基础还行,或热爱钻研,亦可在此项目代码基础上进行修改添加,实现其他不同功能。 欢迎下载!欢迎交流学习!不清楚的可以私信问我!

    强化学习驱动下DeepSeek技术创新及其对AI发展的影响

    内容概要:本文档由张卓老师讲解,重点探讨DeepSeek的技术革新及强化学习对未来AI发展的重要性。文章回顾了AI的历史与发展阶段,详细解析Transformer架构在AI上半场所起到的作用,深入介绍了MoE混合专家以及MLA低秩注意机制等技术特点如何帮助DeepSeek在AI中场建立优势,并探讨了当前强化学习的挑战和边界。文档不仅提及AlphaGo和小游戏等成功案例来说明强化学习的强大力量,还提出了关于未来人工通用智能(AGI)的展望,特别是如何利用强化学习提升现有LLMs的能力和性能。 适用人群:本资料适宜对深度学习感兴趣的研究人员、开发者以及想要深入了解人工智能最新进展的专业人士。 使用场景及目标:通过了解最新的AI技术和前沿概念,在实际工作中能够运用更先进的工具和技术解决问题。同时为那些寻求职业转型或者学术深造的人提供了宝贵的参考。 其他说明:文中提到了许多具体的例子和技术细节,如DeepSeek的技术特色、RL的理论背景等等,有助于加深读者对于现代AI系统的理解和认识。

    有师傅小程序开源版v2.4.14+前端.zip

    有师傅小程序开源版v2.4.14 新增报价短信奉告 优化部分细节

    [AB PLC例程源码][MMS_047333]Motor Sequence Starter with timers to start.zip

    AB PLC例程代码项目案例 【备注】 1、该资源内项目代码都经过测试运行成功,功能ok的情况下才上传的,请放心下载使用!有问题请及时沟通交流。 2、适用人群:计算机相关专业(如计科、信息安全、数据科学与大数据技术、人工智能、通信、物联网、自动化、电子信息等)在校学生、专业老师或者企业员工下载使用。 3、用途:项目具有较高的学习借鉴价值,不仅适用于小白学习入门进阶。也可作为毕设项目、课程设计、大作业、初期项目立项演示等。 4、如果基础还行,或热爱钻研,亦可在此项目代码基础上进行修改添加,实现其他不同功能。 欢迎下载!欢迎交流学习!不清楚的可以私信问我!

    商城二级三级分销系统(小程序+后台含源码).zip

    商城二级三级分销系统(小程序+后台含源码).zip

    li_3ck_01b_0918.pdf

    li_3ck_01b_0918

    nicholl_3cd_01_0516.pdf

    nicholl_3cd_01_0516

    1995-2022年 网络媒体关注度、报刊媒体关注度与媒体监督相关数据.zip

    媒体关注度是一个衡量公众对某个事件、话题或个体关注程度的重要指标。它主要反映了新闻媒体、社交媒体、博客等对于某一事件、话题或个体的报道和讨论程度。 媒体监督的J-F系数(Janis-Fadner系数)是一种用于测量媒体关注度的指标,特别是用于评估媒体对企业、事件或话题的监督力度。J-F系数基于媒体报道的正面和负面内容来计算,从而为公众、研究者或企业提供一个量化工具,以了解媒体对其关注的方向和强度。 本数据含原始数据、参考文献、代码do文件、最终结果。参考文献中JF系数计算公式。 指标 代码、年份、标题出现该公司的新闻总数、内容出现该公司的新闻总数、正面新闻数全部、中性新闻数全部、负面新闻数全部、正面新闻数原创、中性新闻数原创、负面新闻数原创,媒体监督JF系数。

    [AB PLC例程源码][MMS_040315]Double INC and Double DEC of INT datatype.zip

    AB PLC例程代码项目案例 【备注】 1、该资源内项目代码都经过测试运行成功,功能ok的情况下才上传的,请放心下载使用!有问题请及时沟通交流。 2、适用人群:计算机相关专业(如计科、信息安全、数据科学与大数据技术、人工智能、通信、物联网、自动化、电子信息等)在校学生、专业老师或者企业员工下载使用。 3、用途:项目具有较高的学习借鉴价值,不仅适用于小白学习入门进阶。也可作为毕设项目、课程设计、大作业、初期项目立项演示等。 4、如果基础还行,或热爱钻研,亦可在此项目代码基础上进行修改添加,实现其他不同功能。 欢迎下载!欢迎交流学习!不清楚的可以私信问我!

    [AB PLC例程源码][MMS_047773]Convert Feet to Millimeters.zip

    AB PLC例程代码项目案例 【备注】 1、该资源内项目代码都经过测试运行成功,功能ok的情况下才上传的,请放心下载使用!有问题请及时沟通交流。 2、适用人群:计算机相关专业(如计科、信息安全、数据科学与大数据技术、人工智能、通信、物联网、自动化、电子信息等)在校学生、专业老师或者企业员工下载使用。 3、用途:项目具有较高的学习借鉴价值,不仅适用于小白学习入门进阶。也可作为毕设项目、课程设计、大作业、初期项目立项演示等。 4、如果基础还行,或热爱钻研,亦可在此项目代码基础上进行修改添加,实现其他不同功能。 欢迎下载!欢迎交流学习!不清楚的可以私信问我!

    [AB PLC例程源码][MMS_042349]How to read-write data to-from a PLC using OPC in Visual Basic 6.zip

    AB PLC例程代码项目案例 【备注】 1、该资源内项目代码都经过测试运行成功,功能ok的情况下才上传的,请放心下载使用!有问题请及时沟通交流。 2、适用人群:计算机相关专业(如计科、信息安全、数据科学与大数据技术、人工智能、通信、物联网、自动化、电子信息等)在校学生、专业老师或者企业员工下载使用。 3、用途:项目具有较高的学习借鉴价值,不仅适用于小白学习入门进阶。也可作为毕设项目、课程设计、大作业、初期项目立项演示等。 4、如果基础还行,或热爱钻研,亦可在此项目代码基础上进行修改添加,实现其他不同功能。 欢迎下载!欢迎交流学习!不清楚的可以私信问我!

    matlab程序代码项目案例:matlab程序代码项目案例论文代码 多篇RMPC 鲁棒模型预测控制Paper-code-implementation.zip

    matlab程序代码项目案例 【备注】 1、该资源内项目代码都经过测试运行成功,功能ok的情况下才上传的,请放心下载使用!有问题请及时沟通交流。 2、适用人群:计算机相关专业(如计科、信息安全、数据科学与大数据技术、人工智能、通信、物联网、自动化、电子信息等)在校学生、专业老师或者企业员工下载使用。 3、用途:项目具有较高的学习借鉴价值,不仅适用于小白学习入门进阶。也可作为毕设项目、课程设计、大作业、初期项目立项演示等。 4、如果基础还行,或热爱钻研,亦可在此项目代码基础上进行修改添加,实现其他不同功能。 欢迎下载!欢迎交流学习!不清楚的可以私信问我!

    lusted_3cd_02_0716.pdf

    lusted_3cd_02_0716

    pepeljugoski_01_0107.pdf

    pepeljugoski_01_0107

Global site tag (gtag.js) - Google Analytics