2.1 开源的GFS
设计目标:
1、硬件错误时常态而不是异常
2、流式数据访问
3、大规模数据集
4、简单一致性模型
5、移动计算比移动数据更划算
保障HDFS可靠性措施
1、冗余备份
HDFS将每个文件存储为一个数据块,默认为64MB,每个数据块都会存在多个副本。HDFS针对一个数据块写操作时只能有一个用户,DataNode使用本地文件系统存储HDFS数据。
BlockReport:当DataNode启动时,它会遍历本地文件系统,会产生一份HDFS本地数据块和本地文件对应的关系列表,并把它发送给NodeNode。
2、副本存放
副本书数为3时,本地机架不同节点存书两个副本,另一个机架存书一个副本。
3、心跳检测
HeartBeat:DataNode周期性的想NodeNode发送HeartBeat,NN收到说明DN工作正常。NN会记录没有HeartBeat的DN为宕机,将不会发给它们任何I/O请求。DN宕机会造成副本书下降,并低于制定的阀值,NN会不断检测这些数据块,在低于指定阀值时进行复制。
引发数据块重新复制有多种原因:DN不可用、数据副本损坏、DN磁盘错误、复制因子数增大
4、安全模式
系统启动时NameNode会进入一个安全模式,此时不会出现数据块的写操作。NN会收到所有DN用有的数据块列表信息,NN由此获得所有数据块信息,数据块达到最小副本数时,该数据块就被认为是安全的。在一定比例的数据块被NN检测为安全状态后,在等若干时间(书上就说若干),NN会退出这个模式。如果副本书不足,就进行复制
5、数据完整性检测
HDFS客户端负责checksum,在HDFS文件创建时,会计算每个数据块的校验和,并作为一个单独的隐藏文件保存。当客户端获取数据后进行校验和,与隐藏文件中的值进行比较,如果不相同将从其它DN获取该数据块的副本。
6、空间回收站
文件删除后并不会马上从HDFS中移除,删除后的文件会被保存在/trash目录里。默认为6个小时后自动删除。
空间释放延迟:删除的文件被转移到了/trash目录里,6小时后才会被删除,所以空间释放会有延迟。
7、元数据磁盘失效
镜像文件和事物日志是HDFS的核心数据结构。NN可以配置支持维护镜像文件和事物日志的多个副本,任何对镜像文件和事物日志的修改都会同步到副本上。副本会减低NN处理数据的速度,代价是可以接受的,HDFS是数据密集,非元数据密集。
8、快照
有思想,没实现
相关推荐
Hadoop+Spark大数据技术(微课版)曾国荪、曹洁版思维导图第二章 HDFS大数据分布式存储
HDFS的Shell操作,bin/hadoop fs 具体命令 OR bin/hdfs dfs 具体命令 dfs是fs的实现类等等。
第二章 分布式文件系统HDFS
第二章 HDFS分布式文件系统 2.1_HDFS概述及应用场景-HDFS系统架构 2.2_关键特性介绍 第三章 MapReduce分布式离线批处理和Yarn资源协调 3.1_MapReduce和Yarn基本介绍-MapReduce和Yarn功能与架构 3.2_Yarn的资源...
HDFS概述与架构 HDFS(Hadoop Distributed File System)是Apache Hadoop的核心子项目,基于Google File System论文,旨在解决大规模数据存储问题。它是一个分布式文件系统,能够处理大量数据的存储和处理需求。 ...
实验二:“熟悉常用的HDFS操作”旨在帮助学习者深入理解Hadoop分布式文件系统(HDFS)在大数据处理中的核心地位,以及如何通过Shell命令和Java API进行高效操作。HDFS在Hadoop架构中扮演着存储大数据的核心角色,为...
### 高级软件人才培训专家-Hadoop课程资料-2-第二章 - 分布式存储 Hadoop HDFS #### 重要知识点解析 ##### 1. 为什么需要分布式存储 随着信息技术的发展,数据量呈爆炸性增长趋势,单个服务器已经无法满足大规模...
综上所述,本章内容涵盖了HDFS和MapReduce的基本概念,以及如何在Ubuntu环境中使用Eclipse进行Java开发,实现检查HDFS文件是否存在以及WordCount统计功能。这些知识对于理解和应用Hadoop大数据处理框架至关重要。
第二章 HDFS技术原理 第三章 MapReduce技术原理 第四章 MySQL介绍 数据库基础 Hive数据存储 第五章 HBase技术原理 第六章 Loader使用 第七章 Flume技术原理 第八章 Kafka技术原理 第九章 Zookeeper技术原理 第十章 ...
3. 第二章 01HDFS分布式文件系统(一) 4. 第二章 01HDFS分布式文件系统(二) 5. 第二章 02HDFS分布式文件系统(一) 6. 第二章 02HDFS分布式文件系统(二) 7. 第三章 MapReduce离线式批量数据处理引擎(一) ...
### 大数据技术 Hadoop开发者第二期 MapReduce HDFS Hive Mahout HBase 相关知识点解析 #### 一、Hadoop 业界资讯 - **InfoWorld 授予 Apache Hadoop 年度技术创新奖章** - **背景**:2010年1月,InfoWorld 授予 ...
3.1 分布式文件系统 3.2 HDFS简介 3.3 HDFS相关概念 3.4 HDFS体系结构 3.5 HDFS存储原理 3.6 HDFS数据读写过程 3.7 HDFS编程实践
第二章 Zookeeper操作和Hadoop环境搭建 第三章 HDFS操作 第四章 HDFS的JavaAPI操作和MapReduce入门 第五章 MapReduce的WordCount案例和分区 第六章 MapReduce的排序和序列化 第七章 MapReduce的运行机制和join操作 ...
第二章通常会介绍Hadoop的基础知识,包括Hadoop的起源、设计哲学以及其在处理大规模数据时的核心组件。在这个上下文中,上传的气象数据文件很可能是用于示例或练习,帮助读者理解如何在Hadoop环境中存储、处理和分析...
标题中的“大数据导论-第二章-大数据处理架构Hadoop”揭示了这组课件主要集中在大数据的基础理论以及Hadoop这一关键的大数据处理框架上。Hadoop是Apache软件基金会的一个开源项目,它为大规模数据集提供了分布式计算...
第二章 分布式文件系统HDFS 45 实验五 HDFS Shell命令使用 45 实验六 Eclipse开发插件配置 64 实验七 HDFS Java API编程 69 第三章 分布式协调服务系统ZooKeeper 75 实验八 Zookeeper安装部署 75 实验九 Zookeeper ...
Scale-out NAS和分布式文件系统(如HDFS)是常见的大数据存储解决方案,它们允许数据在多个服务器间分布,以实现高可用性和容错性。 【大数据存储技术】涵盖了多种方法,其中分布式对象存储是一种重要的技术。在...
第二章 环境准备 2.1 使用软件版本信息介绍 2.2 节点架构介绍 2.3 基础系统环境准备 第三章 Kerberos框架搭建 3.1 Kerberos Server搭建 3.2 Kerberos Client搭建 3.3 规划principal 第四章 配置HDFS和Kerberos的集成...
- **Hadoop HDFS**:Hadoop 分布式文件系统,用于大规模数据集的分布式存储,通常与MapReduce一起使用进行大数据处理。 - **SQL Map-Reduce Interface**:允许用户通过SQL查询Hadoop数据,简化数据分析工作。 4. ...