`
houzhaowei
  • 浏览: 497919 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论

hdfs 的容灾

阅读更多

dfs.name.dir (namenode的路径) 可以配置多个路径(也就是说可以多磁盘)但这些目录中的文件都是一样的 (可以防止某磁盘挂掉,做备份)

dfs.data.dir (datanode的路径) 也可配置多个。但数据时不一样的也就是利用多块磁盘来存储数据。至于datanode 的容灾措施, hdfs 会默认把datanode数据copy三份  一个放在本地机架的节点,一个放在同一机架的另一节点,另一个放在其他机架上。 当namenode长时间接收不到(默认1h)datanode的心跳 就认为其挂掉 就会自动从备份数据中取数据块。

 

(1)在Namenode和Datanode之间维持心跳检测,当由于网络故障之类的原因,导致Datanode发出的心跳包没有被Namenode正常收 到的时候,Namenode就不会将任何新的IO操作派发给那个Datanode,该Datanode上的数据被认为是无效的,因此Namenode会检 测是否有文件block的副本数目小于设置值,如果小于就自动开始复制新的副本并分发到其他Datanode节点。
(2)检测文件block的完整性,HDFS会记录每个新创建的文件的所有block的校验和。当以后检索这些文件的时候,从某个节点获取block,会首先确认校验和是否一致,如果不一致,会从其他Datanode节点上获取该block的副本。
(3)集群的负载均衡,由于节点的失效或者增加,可能导致数据分布的不均匀,当某个Datanode节点的空闲空间大于一个临界值的时候,HDFS会自动从其他Datanode迁移数据过来。
(4)Namenode上的fsimage和edits日志文件是HDFS的核心数据结构,如果这些文件损坏了,HDFS将失效。因而, Namenode可以配置成支持维护多 个 FsImage和 Editlog的拷贝。任何对 FsImage或者 Editlog的修改,都将同步到它们的副本上。 它总是选取最近的一致的 FsImage和 Editlog使用。 Namenode在 HDFS是单点存在,如果 Namenode所在的机器错误,手工的干预是必须的。
(5)文件的删除,删除并不是马上从Namenode移出namespace,而是放在/ trash目录随时可恢复,直到超过设置时间才被正式移除。

分享到:
评论

相关推荐

    Hadoop框架下的容灾系统研究

    ### Hadoop框架下的容灾系统研究 #### 摘要 在信息技术日益发展的今天,确保信息系统的稳定性变得尤为重要。无论是企业还是个人用户,都面临着数据安全的风险。一旦数据发生丢失或损坏,可能会对业务造成不可估量...

    HDFS用户指南中文版

    4. **备份与归档**:提供高可用性和容灾备份的能力,适用于长期数据保存。 #### 六、HDFS优化策略 - **小文件处理**:由于NameNode需要维护文件元数据,过多的小文件会导致NameNode内存压力过大。可以考虑将多个小...

    巴豆大数据团队讲师课件HDFS.pdf

    HDFS快照功能是Hadoop 2.0引入的一个数据备份和容灾恢复机制。它允许用户对HDFS文件系统或其目录创建一个时间点的快照,相当于在特定时刻对整个文件系统或目录树进行镜像。快照不会影响HDFS的正常操作,用户可以利用...

    浅议新的基于云计算环境的数据容灾策略.pdf

    谷歌的GFS和Hadoop的HDFS是典型的分布式文件系统。 3. 虚拟化平台管理技术:虚拟化技术可以提高物理主机资源的利用率,使得多个操作系统和多个应用程序能够在一个虚拟主机上同时运行,实现负载平衡和管理平台的灵活...

    阿里云 专有云企业版 V3.8.2 文件存储HDFS 开发指南 20200417.pdf

    - 文档可能还会包含最佳实践,如数据备份策略、性能调优技巧、容灾恢复方案等,以帮助开发者实现高效且可靠的HDFS使用。 总之,《阿里云专有云企业版 V3.8.2 文件存储HDFS 开发指南》是开发者和运维人员掌握阿里云...

    阿里的HBase业务和容灾实践

    HBase是一种开源的非关系型分布式数据库,它建立在Hadoop文件系统(HDFS)之上,充分利用了Hadoop的存储和计算能力。HBase主要特性包括: - 基于列的数据存储系统,适用于海量数据的存储。 - 适合高写入吞吐量的...

    字节跳动 EB 级 HDFS 实践.docx

    - Data Node是实际存储和读取数据的节点,用户文件被分割为多个块并复制到不同的Data Node上,以实现容错和容灾。 - Data Node与Name Node间通过心跳机制进行通信,定期汇报存储状态,接收并执行Name Node的指令,...

    大数据容灾备份技术挑战和增量备份解决方案

    为此,在分析大数据容灾备份现状的基础上,结合行业对大数据容灾备份需求,讨论了几种典型的技术解决方案及其优缺点,提出了一种基于HDFS的增量数据备份恢复方案,具备分钟级RPO的系统远程备份特性,可以较好地解决...

    HBase数据容灾技术方案

    No-SQL、云计算、海量数据分析的普及,使我们越来越关注系统的可靠性(HighAvailability),数据容灾/数据恢复是高可用系统的一个很重要的技术组成,本文由简入深,一步步搭建一个HBase数据集群,并详细说明生产环境...

    蚂蚁金服、支付宝、海量账单、高并发查询、存储、容灾解决方案

    1. **大数据存储**:在处理海量账单数据时,传统的关系型数据库可能无法胜任,因此通常会采用分布式存储系统,如Hadoop HDFS,它可以将大量数据分散存储在多台服务器上,提供高容量和高可用性。 2. **分布式数据库*...

    Spark实时计算的开发平台RCS_ 阿里流式分析实战

    Spark开发者会将自己的代码完成开发并提交到YARN集群,之后任务的监控、报警、性能...jar包版本维护在HDFS上 数据接入覆盖主流中间件:Kafka、MetaQ、TT和SLS 任务的监控、报警、日志处理 Spark任务容灾 Spark集群容灾

    基于Hadoop的高速公路工程大数据平台搭建.zip

    2. 容灾备份:定期备份NameNode元数据,以防数据丢失。 3. 系统维护:定期更新Hadoop版本,修复安全漏洞,确保集群稳定运行。 基于Hadoop的高速公路工程大数据平台搭建,能够帮助我们高效地管理和分析大量工程数据...

    Hadoop原理详细解析.doc

    Hadoop的HDFS是其主要的分布式文件系统,主要特点是容灾、大容量和大吞吐量。HDFS通过数据的本地化策略优化MapReduce计算,即尽量将计算任务调度到存储数据的节点上,减少数据传输的开销。系统结构中,名称节点...

    滴雨科技openstack_image_making.pdf

    融合第三代区块链、人工智能、大数据、云存储、云计算、容灾备份、云搜索,物联网, web3.0功能。 一体化的低层文件系统和无缝扩展的集群平台,同时支持POSIX文件标准,兼容HDFS,块和对象存储。引领第三代综合私有云...

    openstack_installation_guide.pdf

    融合第三代区块链、人工智能、大数据、云存储、云计算、容灾备份、云搜索,物联网, web3.0功能。 一体化的低层文件系统和无缝扩展的集群平台,同时支持POSIX文件标准,兼容HDFS,块和对象存储。引领第三代综合私有云...

    计算机云计算的数据存储技术分析.pdf

    云存储,作为云计算的重要组成部分,主要涉及海量数据的存储、备份和共享,其技术特点同样体现在对硬件要求不高、数据安全性和容错容灾能力的提升。 在云计算技术中,Hadoop分布式文件系统(HDFS)和Google文件系统...

    Hadoop基础面试题(附答案)

    - **容灾**:在出现灾难性事件时,能够快速恢复数据。 #### 十八、YARN核心组件 - **ResourceManager**:集群资源管理和调度。 - **NodeManager**:单个节点的资源管理和任务监控。 - **ApplicationMaster**:每个...

    CDH集群运维手册

    9. **备份与容灾**:定期备份数据,配置高可用性和故障切换方案,如HDFS的NameNode HA和Zookeeper的Quorum机制,以确保业务连续性。 10. **性能调优**:通过对硬件、网络、操作系统以及Hadoop组件的综合调优,可以...

    构建一个跨机房的Hadoop集群.rar

    Hadoop是分布式计算框架,主要用于处理和存储大规模数据,而跨机房部署可以提高容灾能力和系统稳定性。下面我们将深入探讨这个主题。 首先,我们来理解Hadoop的基本架构。Hadoop主要由两个核心组件组成:HDFS...

Global site tag (gtag.js) - Google Analytics