hadoop版本:CDH3u2
hadoop 中生成har文件是通过mapred job实现的,这个主要的class是“HadoopArchives.java”,它是tools包里面的一个类。这个类有800多行code,包含map reduce 自定义的inputformat和其它辅助方法,细读起来还需要花点时间。
hadoop archive -archiveName combine.har -p /fc/src/2011/ 10 11 12 /fc/har/2011/
几个重要的知识点:
1. 生成文件列表文件
下面是input path,即"/user/heipark/fc/" 目录结构(红色为文件夹):
/user/heipark/fc/
- 0000
- 1111
- 2222
- 3333
- 4444
+ sub1
- 5555
+ dir1
- 7777
- 8888
+ sub2
- 6666
运行命令过程中生成如下文件:"/user/hdfs/.staging/har_93ftj7/_har_src_files"
har_93ftj7:har为固定前缀,后面为随机字符串
_har_src_files:固定文件名,它是输入文件的meta文件,算法采用广度优先,内容如下(为了便于阅读,版式上略做调整):
1066026506 /0000 file // ②
1066026506 /1111 file // ②
38268381 /2222 file // ②
62016424 /3333 file // ②
54855349 /4444 file // ②
0 /sub1 dir 5555 dir1
909247 /sub1/5555 file
0 /sub1/dir1 dir 7777 8888
34193078 /sub1/dir1/7777 file
2095606385 /sub1/dir1/8888 file
0 /sub2 dir 6666
95644473 /sub2/6666 file
① 这行的信息表示top level path的文件夹和文件。"0":dir的大小都为0;"/":表示当前为输入文件的top level path;"dir":表示当前是一个dir;"1111 2222 3333 4444 sub1 sub2":top level path 下面的文件和文件夹
② 这4行表示"top level path"下面的5个文件,第一列为文件大小,第二列为文件名,第三列标识当前是一个文件
2. 如何确定map和reduce task数量
2.1 map task数量:
totalSize:所有输入文件总大小,这个是在递归文件列表的时候累加得来的。
partSize: 默认为2GB,它是一个常量,只能通过修改代码变更。
2.2 reduce 数量
reduce数量为1。reduce主要作用是汇总map输出的文件meta 信息,并生成index文件。
3. 关于"HArchiveInputFormat"
它的作用是读取"_har_src_files"内容(input文件列表),并根据split size(totalSize/numMapTask)生成input split。
这里生成split过程比较巧妙,FileSplit是根据"_har_src_files"的偏移量分割的,简单说就是一行一行读取,并累加读取文件大小,当达到"split size"就输出一个FileSplit,最终将不足split size的文件放到一个split中,代码如下:
new FileSplit(src, startPos, size, (String[]) null)
src:"_har_src_files"文件
startPos:一个split开始行的的bytes,这个偏移是_har_src_files文件的bytes偏移
size:一个split,在_har_src_files文件bytes偏移大小,可以这样理解:startPos + size = endPos
4. 关于Input Path
因为map task不直接读取input file,而是通过"_har_src_files"读取自己处理的FileSplit中文件,所以map task真正的输入路径是"_har_src_files"所在目录。
jobDirectory:conf中的“har.job.dir”,就是"_har_src_files"所在文件夹。
5. 关于Map Task
Map Task的输入是"_har_src_files"文件中属于当前map处理的行。
map输出的key是当前文件或者文件夹名称的hash值,value是文件或者文件夹的meta信息。
如果当前行是"dir",处理逻辑如下:
# 0 / dir 0000 1111 2222 3333 4444 sub1 sub2
①输出到reduce的信息
/ dir none 0 0 0000 1111 2222 3333 4444 sub1 sub2
"/": 目前处理的路径
"dir none 0 0":表示文件类型是dir
"0000 1111 2222 3333 4444 sub1 sub2":表示"/"路径下包含的文件和路径
如果当前行为"file",处理逻辑如下:
# 1066026506 /0000 file
① copy 文件"0000"到har文件内"part-X"中
② 输出到reduce信息
/0000 file part-1 0 1066026506
"/0000":当前处理文件
"file":当前处理的是一个文件
"part-1":文件"0000"输出文件名
"0":文件"0000"在"part-1"中起始偏移bytes
"1066026506":问"0000"文件大小
6. 关于reduce
reduce的工作就是生成"_masterindex"、"_index"两个索引文件。
先说"_index"文件,它直接汇总并输出map端output的value值,如下:
/0000 file part-1 0 1066026506
/1111 file part-1 1066026506 1066026506
/2222 file part-1 2132053012 38268381
/3333 file part-1 2170321393 62016424
/4444 file part-0 0 54855349
/sub1 dir none 0 0 5555 dir1
/sub2 dir none 0 0 6666
/sub1/5555 file part-0 54855349 909247
/sub1/dir1 dir none 0 0 7777 8888
/sub2/6666 file part-2 0 95644473
/sub1/dir1/7777 file part-0 55764596 34193078
/sub1/dir1/8888 file part-0 89957674 2095606385
再说“_masterindex” ,它是"_index"文件的索引文件。每一行索引一批文件(每批1000个,不足1000个算也算一批)它的第一行为“1”,这个值是version信息,这也许HarFileSystem开发人员打算支持对har文件的更新留下的功能。
reduce的输入value是经过排序的,又因为key为value中path部分的hash,所以reduce的key值是追加变大的。
本例"_masterindex":
1
#startIndex endIndex startPos indexStream.getPos()
0 771396412 0 493
startIndex:第一个文件startIndex(即文件path的hash)。默认值为0,处理玩一批文件后,会把endIndex赋值给startIndex。
endIndex :最后一个文件的endIndex (即文件path的hash值)
startPos :本批文件在"_index"文件中bytes偏移值
indexStream.getPos():本批文件在"_index"中结束bytes值
-- heipark
相关推荐
学习Hadoop源码过程中做的源码分析,共享一下,PPT中有我的邮箱,可以互相探讨。Hadoop源码分析(client端提交job到rm端)
本压缩包“Hadoop分布式文件系统——导入和导出数据内含源码以及说明书可以自己运行复现.zip”包含了关于如何在HDFS上进行数据导入和导出的详细教程,以及相关的源代码和说明书,便于读者实践操作。 HDFS是Apache ...
Hadoop源码分析是深入理解Hadoop分布式计算平台原理的起点,通过源码分析,可以更好地掌握Hadoop的工作机制、关键组件的实现方式和内部通信流程。Hadoop项目包括了多个子项目,其中最核心的是HDFS和MapReduce,这两...
很抱歉,根据您提供的文件信息,"hadoop源码归档.zip"的描述中并没有包含任何与Hadoop源码相关的具体知识点。标签虽然指出了"Hadoop",但压缩包内的文件名称列表却与Hadoop或者IT技术无关,而是包含了各种文化和法律...
- **Google核心技术**:Hadoop的设计理念很大程度上受到了Google一系列核心技术的影响,包括Google File System (GFS)、BigTable以及MapReduce等。这些技术为Google构建了强大的数据中心基础设施。 - **Hadoop的诞生...
### Hadoop分布式文件系统(HDFS):关键技术与实践 #### 摘要 Hadoop分布式文件系统(HDFS)是Hadoop项目的核心组件之一,旨在为大规模数据集提供高效可靠的存储解决方案。HDFS的设计原则强调了数据的分布式存储与...
很抱歉,但根据您提供的信息,"hadoop源码资源归档.zip"的压缩文件内容与标签"hadopp"并不匹配。压缩包内的文件名称列表显示的都是法律相关的文档,如法律法规汇编、法考资料、思维导图和模拟试题等,这显然不是...
接下来,我们将详细探讨Hadoop的核心组件、其设计哲学、源码分析的重要性以及如何通过视频学习来提升你的Hadoop技能。 1. Hadoop核心组件: Hadoop主要由两个关键部分组成:Hadoop Distributed File System (HDFS)...
Hadoop和Hive是大数据处理和分析领域的重要工具。Hadoop是一个分布式系统基础架构,由Apache基金会开发。它通过在计算机集群之间分布式存储大量数据并允许应用程序在这些集群上并行处理大量数据,来实现高可靠性和...
总的来说,Hadoop源码分析是提升大数据处理技术深度的重要途径,涵盖的内容广泛且深入,包括分布式文件系统的设计原理、并行计算模型的实现、资源管理的优化策略等多个方面。通过学习和研究,你将能够构建起对Hadoop...
【描述】"实战hadoop,源码,刘鹏,开启通向云计算的捷径"指出,学习Hadoop源码不仅是提升技术能力的有效途径,而且由知名专家刘鹏指导,能够帮助我们更快地掌握云计算的关键技术。刘鹏是Hadoop领域的权威专家,他的...
在对Hadoop源码进行编译的过程中,确保正确地安装和配置所有必要的软件包是至关重要的。以下将详细阐述这些软件包的作用以及如何在编译Hadoop源码时使用它们。 1. **protobuf (Protocol Buffers)** Protocol ...
本压缩包“Hadoop高级编程——构建与实现大数据解决方案”将深入探讨如何利用Hadoop进行高效的数据操作,构建实际的大数据解决方案。 一、Hadoop概述 Hadoop是由Apache基金会开发的开源项目,主要由Hadoop ...
在大数据领域,Hadoop生态圈是不可或缺的重要组成部分,它为海量数据的存储、处理和分析提供了高效可靠的...这份"最新Hadoop生态圈开发学习资料——尚硅谷"将是你学习过程中宝贵的资源,助你在大数据的世界中游刃有余。
本文将深入探讨在编译Hadoop CDH源码时所需的软件及其重要性。 首先,我们来看“google-snappy-ea660b5”。Snappy是由Google开发的一个高效的数据压缩库,它主要关注的是高速度而非最高压缩率。在Hadoop中,Snappy...
通过阅读Hadoop 2.8.1源码,我们可以深入了解分布式系统的设计理念,理解如何实现数据的高效存储和处理。这不仅可以提升我们的编程技能,也有助于培养解决复杂问题的能力,以及在分布式环境中思考问题的习惯。对于...
本文将详细介绍如何编译和安装Hadoop源码,确保你能够按照提供的步骤顺利进行。 首先,我们需要了解Hadoop的基本概念。Hadoop是由Apache软件基金会开发的,它基于Java语言,实现了MapReduce编程模型和分布式文件...
Hadoop课程实验和报告——Hadoop安装实验报告 Hadoop是一个开源的大数据处理框架,由Apache基金会开发和维护。它提供了一种可靠、可扩展、可高效的方法来存储和处理大规模数据。在本实验报告中,我们将介绍Hadoop的...