dfs.name.dir (namenode的路径) 可以配置多个路径(也就是说可以多磁盘)但这些目录中的文件都是一样的 (可以防止某磁盘挂掉,做备份)
dfs.data.dir (datanode的路径) 也可配置多个。但数据时不一样的也就是利用多块磁盘来存储数据。至于datanode 的容灾措施, hdfs 会默认把datanode数据copy三份 一个放在本地机架的节点,一个放在同一机架的另一节点,另一个放在其他机架上。 当namenode长时间接收不到(默认1h)datanode的心跳 就认为其挂掉 就会自动从备份数据中取数据块。
(1)在Namenode和Datanode之间维持心跳检测,当由于网络故障之类的原因,导致Datanode发出的心跳包没有被Namenode正常收 到的时候,Namenode就不会将任何新的IO操作派发给那个Datanode,该Datanode上的数据被认为是无效的,因此Namenode会检 测是否有文件block的副本数目小于设置值,如果小于就自动开始复制新的副本并分发到其他Datanode节点。
(2)检测文件block的完整性,HDFS会记录每个新创建的文件的所有block的校验和。当以后检索这些文件的时候,从某个节点获取block,会首先确认校验和是否一致,如果不一致,会从其他Datanode节点上获取该block的副本。
(3)集群的负载均衡,由于节点的失效或者增加,可能导致数据分布的不均匀,当某个Datanode节点的空闲空间大于一个临界值的时候,HDFS会自动从其他Datanode迁移数据过来。
(4)Namenode上的fsimage和edits日志文件是HDFS的核心数据结构,如果这些文件损坏了,HDFS将失效。因而, Namenode可以配置成支持维护多 个 FsImage和 Editlog的拷贝。任何对 FsImage或者 Editlog的修改,都将同步到它们的副本上。 它总是选取最近的一致的 FsImage和 Editlog使用。 Namenode在 HDFS是单点存在,如果 Namenode所在的机器错误,手工的干预是必须的。
(5)文件的删除,删除并不是马上从Namenode移出namespace,而是放在/ trash目录随时可恢复,直到超过设置时间才被正式移除。
分享到:
相关推荐
### Hadoop框架下的容灾系统研究 #### 摘要 在信息技术日益发展的今天,确保信息系统的稳定性变得尤为重要。无论是企业还是个人用户,都面临着数据安全的风险。一旦数据发生丢失或损坏,可能会对业务造成不可估量...
4. **备份与归档**:提供高可用性和容灾备份的能力,适用于长期数据保存。 #### 六、HDFS优化策略 - **小文件处理**:由于NameNode需要维护文件元数据,过多的小文件会导致NameNode内存压力过大。可以考虑将多个小...
HDFS快照功能是Hadoop 2.0引入的一个数据备份和容灾恢复机制。它允许用户对HDFS文件系统或其目录创建一个时间点的快照,相当于在特定时刻对整个文件系统或目录树进行镜像。快照不会影响HDFS的正常操作,用户可以利用...
谷歌的GFS和Hadoop的HDFS是典型的分布式文件系统。 3. 虚拟化平台管理技术:虚拟化技术可以提高物理主机资源的利用率,使得多个操作系统和多个应用程序能够在一个虚拟主机上同时运行,实现负载平衡和管理平台的灵活...
- 文档可能还会包含最佳实践,如数据备份策略、性能调优技巧、容灾恢复方案等,以帮助开发者实现高效且可靠的HDFS使用。 总之,《阿里云专有云企业版 V3.8.2 文件存储HDFS 开发指南》是开发者和运维人员掌握阿里云...
HBase是一种开源的非关系型分布式数据库,它建立在Hadoop文件系统(HDFS)之上,充分利用了Hadoop的存储和计算能力。HBase主要特性包括: - 基于列的数据存储系统,适用于海量数据的存储。 - 适合高写入吞吐量的...
- Data Node是实际存储和读取数据的节点,用户文件被分割为多个块并复制到不同的Data Node上,以实现容错和容灾。 - Data Node与Name Node间通过心跳机制进行通信,定期汇报存储状态,接收并执行Name Node的指令,...
为此,在分析大数据容灾备份现状的基础上,结合行业对大数据容灾备份需求,讨论了几种典型的技术解决方案及其优缺点,提出了一种基于HDFS的增量数据备份恢复方案,具备分钟级RPO的系统远程备份特性,可以较好地解决...
No-SQL、云计算、海量数据分析的普及,使我们越来越关注系统的可靠性(HighAvailability),数据容灾/数据恢复是高可用系统的一个很重要的技术组成,本文由简入深,一步步搭建一个HBase数据集群,并详细说明生产环境...
1. **大数据存储**:在处理海量账单数据时,传统的关系型数据库可能无法胜任,因此通常会采用分布式存储系统,如Hadoop HDFS,它可以将大量数据分散存储在多台服务器上,提供高容量和高可用性。 2. **分布式数据库*...
Spark开发者会将自己的代码完成开发并提交到YARN集群,之后任务的监控、报警、性能...jar包版本维护在HDFS上 数据接入覆盖主流中间件:Kafka、MetaQ、TT和SLS 任务的监控、报警、日志处理 Spark任务容灾 Spark集群容灾
2. 容灾备份:定期备份NameNode元数据,以防数据丢失。 3. 系统维护:定期更新Hadoop版本,修复安全漏洞,确保集群稳定运行。 基于Hadoop的高速公路工程大数据平台搭建,能够帮助我们高效地管理和分析大量工程数据...
Hadoop的HDFS是其主要的分布式文件系统,主要特点是容灾、大容量和大吞吐量。HDFS通过数据的本地化策略优化MapReduce计算,即尽量将计算任务调度到存储数据的节点上,减少数据传输的开销。系统结构中,名称节点...
融合第三代区块链、人工智能、大数据、云存储、云计算、容灾备份、云搜索,物联网, web3.0功能。 一体化的低层文件系统和无缝扩展的集群平台,同时支持POSIX文件标准,兼容HDFS,块和对象存储。引领第三代综合私有云...
融合第三代区块链、人工智能、大数据、云存储、云计算、容灾备份、云搜索,物联网, web3.0功能。 一体化的低层文件系统和无缝扩展的集群平台,同时支持POSIX文件标准,兼容HDFS,块和对象存储。引领第三代综合私有云...
云存储,作为云计算的重要组成部分,主要涉及海量数据的存储、备份和共享,其技术特点同样体现在对硬件要求不高、数据安全性和容错容灾能力的提升。 在云计算技术中,Hadoop分布式文件系统(HDFS)和Google文件系统...
- **容灾**:在出现灾难性事件时,能够快速恢复数据。 #### 十八、YARN核心组件 - **ResourceManager**:集群资源管理和调度。 - **NodeManager**:单个节点的资源管理和任务监控。 - **ApplicationMaster**:每个...
9. **备份与容灾**:定期备份数据,配置高可用性和故障切换方案,如HDFS的NameNode HA和Zookeeper的Quorum机制,以确保业务连续性。 10. **性能调优**:通过对硬件、网络、操作系统以及Hadoop组件的综合调优,可以...
Hadoop是分布式计算框架,主要用于处理和存储大规模数据,而跨机房部署可以提高容灾能力和系统稳定性。下面我们将深入探讨这个主题。 首先,我们来理解Hadoop的基本架构。Hadoop主要由两个核心组件组成:HDFS...