HDFS的运行原理

m635674608

浏览: 5091234 次
性别:
来自: 南京

最近访客更多访客>>

wusuosuo

yijiaomuqing

millerchu

xdung

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

hadoop

简介

HDFS（Hadoop Distributed File System ）Hadoop分布式文件系统。是根据google发表的论文翻版的。论文为GFS（Google File System）Google 文件系统（中文，英文）。

HDFS有很多特点：

① 保存多个副本，且提供容错机制，副本丢失或宕机自动恢复。默认存3份。

② 运行在廉价的机器上。

③ 适合大数据的处理。多大？多小？HDFS默认会将文件分割成block，64M为1个block。然后将block按键值对存储在HDFS上，并将键值对的映射存到内存中。如果小文件太多，那内存的负担会很重。

如上图所示，HDFS也是按照Master和Slave的结构。分NameNode、SecondaryNameNode、DataNode这几个角色。

NameNode：是Master节点，是大领导。管理数据块映射；处理客户端的读写请求；配置副本策略；管理HDFS的名称空间；

SecondaryNameNode：是一个小弟，分担大哥namenode的工作量；是NameNode的冷备份；合并fsimage和fsedits然后再发给namenode。

DataNode：Slave节点，奴隶，干活的。负责存储client发来的数据块block；执行数据块的读写操作。

热备份：b是a的热备份，如果a坏掉。那么b马上运行代替a的工作。

冷备份：b是a的冷备份，如果a坏掉。那么b不能马上代替a工作。但是b上存储a的一些信息，减少a坏掉之后的损失。

fsimage:元数据镜像文件（文件系统的目录树。）

edits：元数据的操作日志（针对文件系统做的修改操作记录）

namenode内存中存储的是=fsimage+edits。

SecondaryNameNode负责定时默认1小时，从namenode上，获取fsimage和edits来进行合并，然后再发送给namenode。减少namenode的工作量。

工作原理

写操作：

有一个文件FileA，100M大小。Client将FileA写入到HDFS上。

HDFS按默认配置。

HDFS分布在三个机架上Rack1，Rack2，Rack3。

a. Client将FileA按64M分块。分成两块，block1和Block2;

b. Client向nameNode发送写数据请求，如图蓝色虚线①------>。

c. NameNode节点，记录block信息。并返回可用的DataNode，如粉色虚线②--------->。

Block1: host2,host1,host3

Block2: host7,host8,host4

原理：

NameNode具有RackAware机架感知功能，这个可以配置。

若client为DataNode节点，那存储block时，规则为：副本1，同client的节点上；副本2，不同机架节点上；副本3，同第二个副本机架的另一个节点上；其他副本随机挑选。

若client不为DataNode节点，那存储block时，规则为：副本1，随机选择一个节点上；副本2，不同副本1，机架上；副本3，同副本2相同的另一个节点上；其他副本随机挑选。

d. client向DataNode发送block1；发送过程是以流式写入。

流式写入过程，

1>将64M的block1按64k的package划分;

2>然后将第一个package发送给host2;

3>host2接收完后，将第一个package发送给host1，同时client想host2发送第二个package；

4>host1接收完第一个package后，发送给host3，同时接收host2发来的第二个package。

5>以此类推，如图红线实线所示，直到将block1发送完毕。

6>host2,host1,host3向NameNode，host2向Client发送通知，说“消息发送完了”。如图粉红颜色实线所示。

7>client收到host2发来的消息后，向namenode发送消息，说我写完了。这样就真完成了。如图黄色粗实线

8>发送完block1后，再向host7，host8，host4发送block2，如图蓝色实线所示。

9>发送完block2后，host7,host8,host4向NameNode，host7向Client发送通知，如图浅绿色实线所示。

10>client向NameNode发送消息，说我写完了，如图黄色粗实线。。。这样就完毕了。

分析，通过写过程，我们可以了解到：

①写1T文件，我们需要3T的存储，3T的网络流量贷款。

②在执行读或写的过程中，NameNode和DataNode通过HeartBeat进行保存通信，确定DataNode活着。如果发现DataNode死掉了，就将死掉的DataNode上的数据，放到其他节点去。读取时，要读其他节点去。

③挂掉一个节点，没关系，还有其他节点可以备份；甚至，挂掉某一个机架，也没关系；其他机架上，也有备份。

读操作：

读操作就简单一些了，如图所示，client要从datanode上，读取FileA。而FileA由block1和block2组成。

那么，读操作流程为：

a. client向namenode发送读请求。

b. namenode查看Metadata信息，返回fileA的block的位置。

block1:host2,host1,host3

block2:host7,host8,host4

c. block的位置是有先后顺序的，先读block1，再读block2。而且block1去host2上读取；然后block2，去host7上读取；

上面例子中，client位于机架外，那么如果client位于机架内某个DataNode上，例如,client是host6。那么读取的时候，遵循的规律是：

优选读取本机架上的数据。

HDFS中常用到的命令

1、hadoop fs

hadoop fs -ls /
hadoop fs -lsr
hadoop fs -mkdir /user/hadoop
hadoop fs -put a.txt /user/hadoop/
hadoop fs -get /user/hadoop/a.txt /
hadoop fs -cp src dst
hadoop fs -mv src dst
hadoop fs -cat /user/hadoop/a.txt
hadoop fs -rm /user/hadoop/a.txt
hadoop fs -rmr /user/hadoop/a.txt
hadoop fs -text /user/hadoop/a.txt
hadoop fs -copyFromLocal localsrc dst 与hadoop fs -put功能类似。
hadoop fs -moveFromLocal localsrc dst 将本地文件上传到hdfs，同时删除本地文件。

2、hadoop fsadmin

hadoop dfsadmin -report
hadoop dfsadmin -safemode enter | leave | get | wait

hadoop dfsadmin -setBalancerBandwidth 1000

3、hadoop fsck

4、start-balancer.sh

http://www.cnblogs.com/laov/p/3434917.html

分享到：

搭建Hadoop2.7.3+Hive2.1.1及MySQL(配置Hi ... | Docker环境下Hadoop分布式集群搭建

2017-05-10 17:09
浏览 544
评论(0)
分类:编程语言
查看更多

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

少儿编程scratch项目源代码文件案例素材-绝地求生.zip: 少儿编程scratch项目源代码文件案例素材-绝地求生.zip

嵌入式八股文面试题库资料知识宝典-文思创新面试题2010-04-08.zip: 嵌入式八股文面试题库资料知识宝典-文思创新面试题2010-04-08.zip

一种基于剪切波和特征信息检测的太阳斑点图融合算法.pdf: 一种基于剪切波和特征信息检测的太阳斑点图融合算法.pdf

并联型APF有源电力滤波器Matlab Simulink仿真：dq与αβ坐标系下的谐波无功检测与PI控制及SVPWM调制: 内容概要：本文详细介绍了并联型有源电力滤波器（APF）在Matlab/Simulink环境下的仿真研究。主要内容涵盖三个关键技术点：一是dq与αβ坐标系下的谐波和无功检测，利用dq变换和FBD技术实现实时检测；二是两相旋转坐标系（dq）与两相静止坐标系（αβ）下的PI控制，通过调整比例和积分环节实现精准控制；三是SVPWM调制方式的应用，通过优化开关时序提升系统效率和性能。文中还提供了详细的仿真介绍文档，包括模型搭建、参数设定以及结果分析。适合人群：从事电力电子、自动化控制领域的研究人员和技术人员，尤其是对电力滤波器仿真感兴趣的读者。使用场景及目标：适用于需要深入了解并联型APF工作原理和实现方式的研究人员，旨在通过仿真工具掌握谐波和无功检测、PI控制及SVPWM调制的具体应用。其他说明：本文不仅提供了理论知识，还结合了实际操作步骤，使读者能够通过仿真模型加深对APF的理解。

Arduino KEY实验例程【正点原子ESP32S3】: Arduino KEY实验例程，开发板：正点原子EPS32S3，本人主页有详细实验说明可供参考。

嵌入式八股文面试题库资料知识宝典-嵌入式C语言面试题汇总(66页带答案).zip: 嵌入式八股文面试题库资料知识宝典-嵌入式C语言面试题汇总(66页带答案).zip

.archivetempdebug.zip: .archivetempdebug.zip

嵌入式系统开发_CH551单片机_USB_HID复合设备模拟_基于CH551单片机的USB键盘鼠标复合设备模拟器项目_用于通过CH551微控制器模拟USB键盘和鼠标输入设备_实现硬.zip: 嵌入式系统开发_CH551单片机_USB_HID复合设备模拟_基于CH551单片机的USB键盘鼠标复合设备模拟器项目_用于通过CH551微控制器模拟USB键盘和鼠标输入设备_实现硬

少儿编程scratch项目源代码文件案例素材-剑客冲刺.zip: 少儿编程scratch项目源代码文件案例素材-剑客冲刺.zip

少儿编程scratch项目源代码文件案例素材-火影.zip: 少儿编程scratch项目源代码文件案例素材-火影.zip

两极式单相光伏并网系统的Boost电路与桥式逆变仿真及优化方法: 内容概要：本文详细介绍了两极式单相光伏并网系统的组成及其仿真优化方法。前级采用Boost电路结合扰动观察法(P&O)进行最大功率点跟踪(MPPT)，将光伏板输出电压提升至并网所需水平；后级利用全桥逆变加L型滤波以及电压外环电流内环控制，确保并网电流与电网电压同频同相，实现高效稳定的并网传输。文中还提供了具体的仿真技巧，如开关频率设置、L滤波参数计算和并网瞬间软启动等，最终实现了98.2%的系统效率和低于0.39%的总谐波失真率(THD)。适合人群：从事光伏并网系统研究、设计和开发的技术人员，特别是对Boost电路、MPPT算法、逆变技术和双环控制系统感兴趣的工程师。使用场景及目标：适用于希望深入了解两极式单相光伏并网系统的工作原理和技术细节的研究人员和工程师。目标是在实际项目中应用这些理论和技术，提高光伏并网系统的效率和稳定性。其他说明：文中提供的仿真技巧和伪代码有助于读者更好地理解和实现相关算法，在实践中不断优化系统性能。同时，注意电网电压跌落时快速切换到孤岛模式的需求，确保系统的安全性和可靠性。

昭通乡镇边界，矢量边界，shp格式: 矢量边界，行政区域边界，精确到乡镇街道，可直接导入arcgis使用

嵌入式八股文面试题库资料知识宝典-嵌入式c面试.zip: 嵌入式八股文面试题库资料知识宝典-嵌入式c面试.zip

嵌入式八股文面试题库资料知识宝典-I2C总线.zip: 嵌入式八股文面试题库资料知识宝典-I2C总线.zip

岩土工程中随机裂隙网络注浆模型及其应用：不同压力下注浆效果的研究: 内容概要：本文详细介绍了三种注浆模型——随机裂隙网络注浆模型、基于两相达西定律的注浆模型、基于层流和水平集的注浆扩散模型。首先，随机裂隙网络注浆模型基于地质学原理，模拟裂隙网络发育的实际地质情况，在不同注浆压力下进行注浆作业，以增强地基稳定性和提高承载能力。其次，基于两相达西定律的注浆模型利用数学公式模拟裂隙网络中的流体输送过程，适用于裂隙网络地质条件下的注浆效果分析。最后，基于层流和水平集的注浆扩散模型通过引入层流特性和水平集方法，更准确地模拟注浆过程中的扩散过程。文中还讨论了不同注浆压力对注浆效果的影响，并提出了优化建议。适合人群：从事岩土工程、地基加固等相关领域的工程师和技术人员。使用场景及目标：①帮助工程师选择合适的注浆模型和注浆压力；②为实际工程项目提供理论支持和技术指导；③提升地基加固的效果和效率。其他说明：文章强调了在实际应用中需要结合地质条件、裂隙网络特点等因素进行综合分析，以达到最佳注浆效果。同时，鼓励不断创新注浆工艺和方法，以满足日益增长的地基加固需求。

COMSOL Multiphysics 5.5与6.0版本Ar棒板粗通道流注放电仿真的电子特性分析: 内容概要：本文详细比较了COMSOL Multiphysics软件5.5和6.0版本在模拟Ar棒板粗通道流注放电现象方面的异同。重点探讨了不同版本在处理电子密度、电子温度、电场强度以及三维视图等方面的优缺点。文中不仅介绍了各版本特有的操作方式和技术特点，还提供了具体的代码实例来展示如何进行精确的仿真设置。此外，文章还讨论了网格划分、三维数据提取和电场强度后处理等方面的技术难点及其解决方案。适合人群：从事等离子体物理研究的专业人士，尤其是熟悉COMSOL Multiphysics软件并希望深入了解其最新特性的研究人员。使用场景及目标：帮助用户选择合适的COMSOL版本进行高效、精确的等离子体仿真研究，特别是在处理复杂的Ar棒板粗通道流注放电现象时提供指导。其他说明：文章强调了在实际应用中，选择COMSOL版本不仅要考虑便捷性和视觉效果，还需兼顾仿真精度和可控性。

嵌入式八股文面试题库资料知识宝典-C and C++ normal interview_8.doc.zip: 嵌入式八股文面试题库资料知识宝典-C and C++ normal interview_8.doc.zip

通信系统中波形优化与捷变频、PRT抗干扰技术及ISRJ联合优化的应用研究: 内容概要：本文详细介绍了在现代通信系统中，抗干扰技术的重要性和具体应用方法。首先阐述了抗干扰技术的背景及其重要性，随后分别讨论了捷变频技术和波形优化技术的具体机制和优势。捷变频技术能快速改变工作频率，防止被干扰源锁定；波形优化技术则通过改进信号波形来提升抗干扰性能。接着，文章探讨了两种技术相结合的协同效应，最后重点介绍了发射信号及接收滤波器联合优化的抗干扰策略（ISRJ），这是一种综合性优化手段，旨在最大化抗干扰效果并提高通信质量。适合人群：从事通信工程及相关领域的研究人员和技术人员，尤其是关注抗干扰技术的专业人士。使用场景及目标：适用于需要提升通信系统稳定性和可靠性的场合，如军事通信、卫星通信等领域。目标是帮助技术人员理解和掌握先进的抗干扰技术，应用于实际项目中。其他说明：文中提到的技术不仅限于理论层面，还涉及具体的实施细节和应用场景，有助于读者深入理解并应用于实践中。

少儿编程scratch项目源代码文件案例素材-吉他英雄.zip: 少儿编程scratch项目源代码文件案例素材-吉他英雄.zip

独立光伏系统仿真模型研究：Boost升压与双闭环控制策略及技术应用分析: 内容概要：本文详细探讨了独立光伏系统的仿真模型及其控制策略。首先介绍了光伏组串模型的搭建方法，利用Simulink中的S函数实现特性曲线，确保高精度输出。接着重点讨论了Boost升压电路的改进型功率环控制策略，通过非线性积分器有效避免了占空比过高的风险，使系统震荡幅度显著降低。对于储能部分，采用双向DCDC转换器，实现了充放电模式间的平滑切换，并通过互补PWM技术增强了硬件死区保护效果。逆变器部分则采用了单极调制方式，减少了开关损耗，并优化了LC滤波参数的设计，确保了低谐波失真率。此外，还设计了一个基于继电器的智能负载模拟系统，能够根据交流电压的变化自动调节负载，提高了仿真的效率和准确性。最后，通过对整个系统的动态优先级管理，使得光伏出力波动时储能系统可以迅速响应，保持直流母线电压稳定。适合人群：从事光伏系统设计、仿真建模以及电力电子领域的工程师和技术人员。使用场景及目标：适用于需要深入了解独立光伏系统内部工作原理的研究人员，帮助他们掌握从光伏组串到逆变器各环节的具体实现细节，为实际工程项目提供可靠的理论支持和技术指导。其他说明：文中提供了大量MATLAB/Simulink代码片段和具体参数设置建议，便于读者理解和复现实验结果。同时强调了不同控制策略之间的对比分析，指出了最优解的选择依据。

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论