`
szjian
  • 浏览: 74348 次
  • 性别: Icon_minigender_1
  • 来自: 深圳
社区版块
存档分类
最新评论

Hadoop1.0-HDFS介绍

阅读更多

       Hadoop是Apache软件基金会所开发的并行计算框架与分布式文件系统。最核心的模块包括Hadoop Common、HDFS与MapReduce。

       HDFS是Hadoop分布式文件系统(Hadoop Distributed File System)的缩写,为分布式计算存储提供了底层支持。采用Java语言开发,可以部署在多种普通的廉价机器上,以集群处理数量积达到大型主机处理性能。

       一、HDFS基本概念

1BlockHDFS默认的基本存储单位是64M的数据块,和普通文件系统相同的是,HDFS中的文件是被分成64M一块的数据块存储的。不同于普通文件系统的是,HDFS中,如果一个文件小于一个数据块的大小,并不占用整个数据块存储空间。

2、元数据节点(NameNode

a、主要用来管理文件系统的命名空间,其将所有的文件和文件夹的元数据保存在一个文件系统树中。这些信息也会在硬盘上保存成以下文件:命名空间镜像(namespace image)及修改日志(edit log)

b、其还保存了一个文件包括哪些数据块,分布在哪些数据节点上。然而这些信息并不存储在硬盘上,而是在系统启动的时候从数据节点收集而成的。

3、数据节点(DataNode

真正存储数据的地方。客户端(client)或者元数据信息(namenode)可以向数据节点请求写入或者读出数据块。其周期性的向元数据节点回报其存储的数据块信息。

4、从元数据节点(secondary namenode)

从元数据节点并不是元数据节点出现问题时候的备用节点,它和元数据节点负责不同的事情。其主要功能就是周期性将元数据节点的命名空间镜像文件和修改日志合并,以防日志文件过大。这点在下面会相信叙述。合并过后的命名空间镜像文件也在从元数据节点保存了一份,以防元数据节点失败的时候,可以恢复。

 

 

       二、HDFS 架构原理

       HDFS采用master/slave架构。一个HDFS集群包含一个单独的NameNode和多个DataNode。

       NameNode作为master服务,它负责管理文件系统的命名空间和客户端对文件的访问。NameNode会保存文件系统的具体信息,包括文件信息、文件被分割成具体block块的信息、以及每一个block块归属的DataNode的信息。对于整个集群来说,HDFS通过NameNode对用户提供了一个单一的命名空间。

       DataNode作为slave服务,在集群中可以存在多个。通常每一个DataNode都对应于一个物理节点。DataNode负责管理节点上它们拥有的存储,它将存储划分为多个block块,管理block块信息,同时周期性的将其所有的block块信息发送给NameNode。

       下图为HDFS系统架构图,主要有三个角色,Client、NameNode、DataNode。

 

       1、文件写入过程:

              Client向NameNode发起文件写入的请求。

              NameNode根据文件大小和文件块配置情况,返回给Client它所管理部分DataNode的信息。

              Client将文件划分为多个block块,并根据DataNode的地址信息,按顺序写入到每一个DataNode块中。

       2、文件读取过程:

              Client向NameNode发起文件读取的请求。

              NameNode返回文件存储的block块信息、及其block块所在DataNode的信息。

              Client读取文件信息。

       三、HDFS 数据备份

       HDFS被设计成一个可以在大集群中、跨机器、可靠的存储海量数据的框架。它将所有文件存储成block块组成的序列,除了最后一个block块,所有的block块大小都是一样的。文件的所有block块都会因为容错而被复制。每个文件的block块大小和容错复制份数都是可配置的。容错复制份数可以在文件创建时配置,后期也可以修改。HDFS中的文件默认规则是write one(一次写、多次读)的,并且严格要求在任何时候只有一个writer。NameNode负责管理block块的复制,它周期性地接收集群中所有DataNode的心跳数据包和Blockreport。心跳包表示DataNode正常工作,Blockreport描述了该DataNode上所有的block组成的列表。

       1、备份数据的存放:

       备份数据的存放是HDFS可靠性和性能的关键。HDFS采用一种称为rack-aware的策略来决定备份数据的存放。通过一个称为Rack Awareness的过程,NameNode决定每个DataNode所属rack id。缺省情况下,一个block块会有三个备份,一个在NameNode指定的DataNode上,一个在指定DataNode非同一rack的DataNode上,一个在指定DataNode同一rack的DataNode上。这种策略综合考虑了同一rack失效、以及不同rack之间数据复制性能问题。

       2、副本的选择:

       为了降低整体的带宽消耗和读取延时,HDFS会尽量读取最近的副本。如果在同一个rack上有一个副本,那么就读该副本。如果一个HDFS集群跨越多个数据中心,那么将首先尝试读本地数据中心的副本。

       3、安全模式:

       系统启动后先进入安全模式,此时系统中的内容不允许修改和删除,直到安全模式结束。安全模式主要是为了启动检查各个DataNode上数据块的安全性。

 

 

 

分享到:
评论

相关推荐

    pdi-ce-6.0.1.0-386.zip

    PDI支持广泛的数据源,包括关系数据库、文本文件、Excel表格、XML、Web服务、Hadoop HDFS等。它还提供了丰富的数据转换步骤,如表输入/输出、字段选择、排序、合并列、过滤、转换、聚合等。此外,PDI具有高度的可...

    Hadoop1.0&2.0快速入门

    Hadoop 1.0是该框架的最初版本,它主要由两个核心组件构成:HDFS(Hadoop Distributed File System,分布式文件系统)和MapReduce。HDFS负责可靠地存储大数据,而MapReduce则用于处理这些数据。在这个版本中,...

    Sqoop-sqlserver-hdfs.rar

    例如:`sqoop import --connect <connection-string> --username <username> --password <password> --table <table-name> --target-dir <hdfs-path>` 在导入过程中,Sqoop可以自动检测表结构,将列映射到HDFS文件...

    hadoop1.0\2.0学习笔记及

    这包括配置Hadoop的运行环境,如安装Java环境,设置Hadoop的环境变量,配置Hadoop的配置文件如core-site.xml、hdfs-site.xml和mapred-site.xml等。同时,理解Hadoop的伪分布式和完全分布式模式也是必备的知识点。 ...

    HadoopIntellijPlugin-1.0-hadoop-2.7.1.zip

    Intellij (idea)开发工具的插件,可以让idea像eclipse一样管理HDFS的文件。因为之前hdfs的插件只有eclipse有。目前做了一个hadoop 2.7.1版本的插件。安装教程详情看我的博客

    hadoop-1.0源代码(全)

    2. **conf**:配置文件的存放地,这里包含了一系列的配置文件,如`core-site.xml`、`hdfs-site.xml`、`mapred-site.xml`等,它们定义了Hadoop集群的参数设置,如存储和计算的配置,以及集群的拓扑信息。 3. **ivy**...

    Python库 | HadoopCalculator-1.0-py2.4.egg

    1. **数据接口**:提供了与Hadoop系统交互的接口,使得Python开发者可以方便地读取、写入HDFS(Hadoop Distributed File System)上的数据,实现数据的上传和下载。 2. **MapReduce操作**:实现了对Hadoop ...

    hadoop map-reduce turorial

    **作业输入与输出**:输入数据通常存储在Hadoop的分布式文件系统(HDFS)中,而输出结果也会写回到HDFS,便于后续的数据分析或处理。Hadoop Map-Reduce提供了灵活的数据读写接口,支持多种数据格式和压缩算法,以...

    HDP-GPL-3.0.1.0-centos7-gpl.tar.gz 用于部署HDP大数据平台,处理和分析各种类型的数据

    它提供了一套完整的工具和组件,包括Hadoop分布式文件系统(HDFS)、YARN资源管理器、MapReduce计算框架、Hive数据仓库、HBase分布式数据库等。HDP还支持其他开源工具和技术,如Apache Spark、Apache Kafka、Apache ...

    Python库 | zbb_fc_bigdata-1.0-py3-none-any.whl

    4. 数据存储:可能包含对Hadoop HDFS、Amazon S3、Google Cloud Storage等云存储服务的支持,方便数据的存储和访问。 5. 数据可视化:集成matplotlib、seaborn等库,用于将大数据结果以图表形式展示,便于理解和...

    flume_interceptor-1.0-SNAPSHOT.jar

    文章Hadoop_16_flume中自定义拦截器的jar包,可以用来测试使用。 在数据采集之后,通过flume的拦截器,实现不需要的数据过滤掉,并将指定的第一个字段进行加密,加密之后再往hdfs上面保存。

    离线任务平台 v1.0-源码.zip

    4. **数据存储**:离线任务平台往往与大数据存储系统结合,如Hadoop HDFS、HBase或Cassandra,用于存储大量的原始数据和处理后的中间结果。 5. **监控与日志**:为了确保任务的稳定运行,平台需要提供详尽的监控和...

    hadoop-0.20.2安装手册

    本文将详细介绍如何安装并配置Hadoop-0.20.2版本,包括必要的准备工作、集群配置步骤等。 #### 二、环境准备 1. **硬件准备**: - 如果没有足够的物理服务器资源,可以利用虚拟化技术(如VMware 7.1)创建多台...

    京东金融大数据剖析平台总体架构-v1.0-0827-图文精彩.pptx

    这一层可能包含多种工具,如Flume、Kafka或Logstash,用于实时数据流的捕获,以及Hadoop的MapReduce或Apache Nifi进行批量数据导入。 2. 数据存储层:大数据平台需要能够处理PB级别的数据,因此存储系统通常由...

    京东金融大数据剖析平台总体架构-v1.0-0827.pptx

    这通常涉及到分布式文件系统(如Hadoop HDFS)、NoSQL数据库(如HBase、Cassandra)和数据仓库(如Hive、Greenplum)等技术。 3. 数据处理与计算:为了进行分析,数据需要经过预处理、清洗和转化。这通常使用...

    京东金融大数据分析平台总体架构-v1.0-0827.pptx

    2. 数据存储:大数据平台通常采用分布式存储系统,如Hadoop HDFS,用于存储海量非结构化和半结构化数据。同时,关系型数据库如MySQL或NoSQL数据库如MongoDB,用于存储结构化的交易和用户信息。 3. 数据处理与计算:...

    京东金融大数据分析平台总体架构-v1.0-0827.ppt.pptx

    离线存储则可能使用Hadoop HDFS、HBase、Cassandra等分布式数据库,用于大规模数据的长期存储和批量处理。 3. 数据处理层:这一层涉及到数据清洗、转换、整合等操作,通常使用MapReduce、Spark、Presto等工具进行...

    styhadoop:大数据相关知识

    hadoop-hdfs hadoop-mapreduce-client-core hive 编程 hiveUDF 程序依赖程序包 groupID org.apache.hive hive-exec hive-common 同时需要hadoop的hadoop-common hiveUDF使用 add jar /home/hadoop/styhadoop-1.0-...

    京东金融大数据分析平台总体架构-v1.0-20130827.rar

    1. **大数据基础设施**:京东金融的大数据分析平台基于Hadoop生态系统,包括HDFS(分布式文件系统)用于存储大量非结构化和半结构化数据,HBase(分布式数据库)提供实时查询能力,以及MapReduce进行大规模数据处理...

    hbase和hadoop数据块损坏处理

    本文将介绍 HBase 和 Hadoop 数据块损坏的处理方法。 一、HDFS 坏块数据处理 HDFS 坏块数据的处理通常是由挂了两台以上的机器导致的。因此,需要检查集群机器是否挂了多台,然后检查 HDFS 状态。如果不健康,需要...

Global site tag (gtag.js) - Google Analytics