第二章 HDFS

mvplee

浏览: 72599 次

最近访客更多访客>>

simon1991

liangliang01

loren_mt

pistolove

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

实战Hadoop

2.1 开源的GFS

设计目标：

1、硬件错误时常态而不是异常

2、流式数据访问

3、大规模数据集

4、简单一致性模型

5、移动计算比移动数据更划算

保障HDFS可靠性措施

1、冗余备份

HDFS将每个文件存储为一个数据块，默认为64MB，每个数据块都会存在多个副本。HDFS针对一个数据块写操作时只能有一个用户，DataNode使用本地文件系统存储HDFS数据。

BlockReport：当DataNode启动时，它会遍历本地文件系统，会产生一份HDFS本地数据块和本地文件对应的关系列表，并把它发送给NodeNode。

2、副本存放

副本书数为3时，本地机架不同节点存书两个副本，另一个机架存书一个副本。

3、心跳检测

HeartBeat：DataNode周期性的想NodeNode发送HeartBeat，NN收到说明DN工作正常。NN会记录没有HeartBeat的DN为宕机，将不会发给它们任何I/O请求。DN宕机会造成副本书下降，并低于制定的阀值，NN会不断检测这些数据块，在低于指定阀值时进行复制。

引发数据块重新复制有多种原因：DN不可用、数据副本损坏、DN磁盘错误、复制因子数增大

4、安全模式

系统启动时NameNode会进入一个安全模式，此时不会出现数据块的写操作。NN会收到所有DN用有的数据块列表信息，NN由此获得所有数据块信息，数据块达到最小副本数时，该数据块就被认为是安全的。在一定比例的数据块被NN检测为安全状态后，在等若干时间（书上就说若干），NN会退出这个模式。如果副本书不足，就进行复制

5、数据完整性检测

HDFS客户端负责checksum，在HDFS文件创建时，会计算每个数据块的校验和，并作为一个单独的隐藏文件保存。当客户端获取数据后进行校验和，与隐藏文件中的值进行比较，如果不相同将从其它DN获取该数据块的副本。

6、空间回收站

文件删除后并不会马上从HDFS中移除，删除后的文件会被保存在/trash目录里。默认为6个小时后自动删除。

空间释放延迟：删除的文件被转移到了/trash目录里，6小时后才会被删除，所以空间释放会有延迟。

7、元数据磁盘失效

镜像文件和事物日志是HDFS的核心数据结构。NN可以配置支持维护镜像文件和事物日志的多个副本，任何对镜像文件和事物日志的修改都会同步到副本上。副本会减低NN处理数据的速度，代价是可以接受的，HDFS是数据密集，非元数据密集。

8、快照

有思想，没实现