`
spark_li
  • 浏览: 20792 次
  • 性别: Icon_minigender_1
  • 来自: 杭州
社区版块
存档分类
最新评论

Hadoop学习笔记——NameNode 和 DataNode 以及容错处理

阅读更多

概念:
HDFS会把一个很大的文件分块(与传统的文件系统类似),存放在不同的DataNode上。不过这个块是个逻辑概念,比较大,默认是64M。
Hadoop以“管理者-工作者”模式运行。NameNode就是管理者,它保存了文件系统中所有文件以及目录信息。也记录了每个文件的分块信息。但这些分块具体在哪些机器上存储则由DataNode自己上报。

容错:
NameNode的容错:
所有的文件访问都要通过NameNode来进行,所以NameNode至关重要。一旦NameNode发生毁坏,则整个系统都不可用。HDFS提供了两种容错机制来保证NameNode的可用性:
1 第一种方法是把文件元数据写入NFS,备份在另一台机器上。备份操作是同步的,原子的。
2 第二种方法是运行辅助的NameNode,不过这个NameNode并不提供服务,它只是把操作日志Merge到Metadata中,但是如果主NameNode失效,总是有一部分数据来不及Merge,会造成数据丢失。所以一般的做法还是把NFS中备份的数据拷贝到这个NameNode,并作为主NameNode运行。

DataNode容错:
DataNode以数据块作为容错单位,通常一个数据块会被复制到三个DataNode上去。一旦某个数据块访问失效,则去其他备份的机器上去读取。并且会把这个数据块再进行一次复制,以达到备份标准。
也就是说,DataNode不是在机器级别上进行备份,而是在数据块级别上进行备份,这样就大大节省了机器数量。

分享到:
评论

相关推荐

    最新Hadoop学习笔记

    综上所述,这份“最新Hadoop学习笔记”涵盖了从环境搭建到项目实践的全过程,旨在帮助读者全面掌握Hadoop的核心技术和应用方式。通过阅读和实践,你将能够熟练地在大规模数据集上进行高效计算和存储。

    HADOOP学习笔记

    【HADOOP学习笔记】 Hadoop是Apache基金会开发的一个开源分布式计算框架,是云计算领域的重要组成部分,尤其在大数据处理方面有着广泛的应用。本学习笔记将深入探讨Hadoop的核心组件、架构以及如何搭建云计算平台。...

    3.Hadoop学习笔记.pdf

    Hadoop是一个开源框架,用于存储和处理大型数据集。由Apache软件基金会开发,Hadoop已经成为大数据处理事实上的标准。它特别适合于存储非结构化和半结构化数据,并且能够存储和运行在廉价硬件之上。Hadoop具有高可靠...

    hadoop学习笔记

    总结,Hadoop学习笔记详尽地介绍了Hadoop的基础知识、架构、编程模型以及实战应用,对于初学者和进阶者都是宝贵的学习资源。通过深入理解并实践这些内容,你将能够熟练运用Hadoop解决实际的大数据问题,进一步提升你...

    Hadoop学习笔记AAAAAAAAAAA

    其核心组件包括HDFS(Hadoop Distributed File System)和MapReduce,以及后来引入的YARN(Yet Another Resource Negotiator)。在Hadoop 2.7.6版本中,这些组件得到了进一步的优化和完善。 1. **分布式存储**:...

    Hadoop云计算2.0笔记第一课Hadoop介绍

    Hadoop 云计算 2.0 ...Hadoop 云计算 2.0 笔记第一课 Hadoop 介绍为我们提供了 Hadoop 的生态系统特点、Hadoop 生态系统概况、HDFS 和 MapReduce 的架构和原理等方面的知识点,对于学习 Hadoop 和云计算非常有帮助。

    hadoop笔记.zip

    本笔记将全面探讨Hadoop的核心组件——HDFS(Hadoop Distributed File System)和MapReduce。 一、HDFS详解 1. HDFS架构:HDFS由NameNode、DataNode和Secondary NameNode三部分构成。NameNode负责元数据管理,如...

    hadoop- w3c 学习笔记

    Hadoop 是一个开源的大数据处理框架,主要用于存储和处理海量数据。它的设计灵感来源于 Google 的 GFS 和 MapReduce,能够高效地运行在商用硬件集群上,具有高容错性、高可靠性和高扩展性的特点。尤其适合那些需要一...

    hadoop笔记打包下载(想学hadoop不下载后悔)

    Hadoop是大数据处理领域的重要框架,它以分布式计算模型为核心,为海量数据的存储和处理提供了强大支持。这个压缩包“hadoop笔记打包下载(想学hadoop不下载后悔)”显然是一个丰富的学习资源集合,涵盖了Hadoop生态...

    Hadoop,SPRK开发学习笔记

    在学习笔记中,你可能会接触到HDFS的命名节点(NameNode)和数据节点(DataNode)的概念,以及如何使用HDFS命令进行文件操作。 HBase是一个非关系型数据库,基于Hadoop构建,特别适合实时读取大规模数据。它采用了...

    Hadoop学习文档笔记,基本原理 HDFS

    在IT领域,Hadoop是一个广泛使用的开源框架,主要用于大数据处理和分析。它的核心组件包括Hadoop分布式文件系统(HDFS)和MapReduce计算模型。本文将深入探讨HDFS的基本原理和操作,以及如何通过Java API进行文件...

    传智播客hadoop资料文档和笔记

    《传智播客Hadoop资料文档和笔记》是一份针对Hadoop技术的综合学习资源,由知名教育机构传智播客提供。这份资料涵盖了Hadoop生态系统的各个方面,旨在帮助学习者深入理解并掌握这一分布式计算框架的核心概念和技术。...

    hadoop安装及详细学习笔记

    ### Hadoop 安装及详细学习笔记 #### Hadoop 概述 Hadoop 是一个能够对大量数据进行分布式处理的软件框架,它旨在提供高扩展性、可靠性和高效性,适用于处理PB级别的数据集。Hadoop 的核心组件包括 HDFS(Hadoop ...

    传智黑马赵星老师hadoop七天课程资料笔记-第二天(全)

    标题和描述中提到的是“传智黑马赵星老师hadoop七天课程资料笔记-第二天(全)”,这表明这是一个关于Hadoop技术的深度学习资源,主要聚焦于赵星老师的Hadoop教学课程中的第二天内容。通常,这样的课程会涵盖Hadoop的...

    传智黑马赵星老师hadoop七天课程资料笔记-第四天(全)

    在“传智黑马赵星老师hadoop七天课程资料笔记-第四天(全)”的学习中,我们深入探讨了Hadoop这一分布式计算框架的关键概念和技术。Hadoop是Apache软件基金会的一个开源项目,它设计用于处理和存储海量数据,通过...

    Hadoop学习笔记

    总之,Hadoop学习笔记涵盖了Hadoop的基本操作、MapReduce的执行流程、集群的启动和管理以及配置文件的设置。掌握这些知识点是理解Hadoop并进行大数据处理的关键。通过不断实践和学习,你可以更好地利用Hadoop解决大...

    hadoop学习总结1-5

    总的来说,"hadoop学习总结1-5"这份资料可能涵盖了从Hadoop的基本概念到实际操作的各个方面,对于想要深入了解和掌握Hadoop的初学者来说,是一份宝贵的参考资料。通过系统学习,可以逐步提升在大数据处理领域的专业...

Global site tag (gtag.js) - Google Analytics