`

初始HDFS(hadoop distributed file system)

阅读更多
初次接触HDFS(Hadoop Distributed File System),主动或者被动地了解一些相关知识,也有同事给我们分享过,但是大多是一些概念把我们唬住了,很难有个清晰的认识和进一步了解的前提,借此论坛的机会,整理一点,我想可以轻松愉快的快速认识一下HDFS。”





影片名称:HDFS分布式文件系统

上映时间:2004年X月,至今翻拍多版

主要演员:client、namenode、datanode

编剧导演:Doug Cutting等

发行方式:Open开源

发行机构:Apache

影片语言:Java

影片类型:科技教育动漫

影迷评分:7.9分/

相关影片:GFS、HBASE、MAPREDUCE、HIVE、PIG、ZOOKEEPER等

影片简介:HDFS是Hadoop生态系统的一员,意思如同名称分布式文件系统……

◆影片开始,都会列出主要演员(The Cast)





客户端:对HDFS的操作都要通过我,你们别指望越过我,其他人不会搭理你;

元数据节点:我是独一无二的,当然除了我的备胎(我要是死了,备胎就是我,等我复活以后,我就变成备胎了),这里的事情都要协调,看出来了吧,我是主角;

数据节点:我们,我们是存储数据用的,我们是群众演员,一般都是有很多的,我们可以死,但是也不能死太多;

◆正式故事(第一节),向HDFS里面写数据(Writing Data In HDFS Cluster)

○用户请求(Request From User)





○数据块和拷贝(Block And Replaction)





○切割文件成块(Divide File Into BLocks)





○询问元数据节点(Ask NameNode)





○元数据节点选用数据节点(NameNode Assigns DataNodes)





○客户端开始写数据(Client Starts Writing Data)





○通知元数据节点操作完成(Infrom NameNode When Done)







○全部数据块写完(When All Blocks Are Written)





○正式故事(上)扼要重述(Rcap)





◆正式故事(第二节),从HDFS中读取数据(Reading Data From HDFS Cluster)

○用户请求(Request From User)





○首先联系元数据节点(Contact NameNode First)





○下载数据(DownLoad Data)





◆正式故事(第三节),HDFS容错性能

○错误类型和检错(Types Of Faults And Their Detection)

错误一:节点错误





错误二:通讯错误





错误三:数据错误





检错一:节点错误





检错二:网络错误





检错三:数据错误







○处理数据读写错误(Handling Reading And Writing Failures)

处理写数据错误







处理读数据错误







○处理节点错误









◆正式故事(第四节),拷贝的位置策略(Replica Placement Strategy)





○机架和数据节点(Racks and DataNode)





○选择第一个拷贝位置(Selecting First Replica Location)





○剩下两个拷贝位置(Next Two Replica Location)





○后来的拷贝所放位置(Subsquent Replica Locations)




 



◆后记(Where to go From here?)





HDFS分布式文件系统介绍完了,是不是感觉像放电影一样,我想看完后,你对HDFS一定有一个大概认识,貌似也不是很困难,不过这只是个开始,我也是在网上找到这幅漫画的,分享给大家,希望可以让你对学习Hadoop提供一点信心吧,愉快的学习,我们知道公司和客户都在推进各个系统的云化工作,我想这些东西以后也是我们必备的知识吧。

                       


  • 大小: 7.6 KB
  • 大小: 55.1 KB
  • 大小: 25.9 KB
  • 大小: 50.4 KB
  • 大小: 21.7 KB
  • 大小: 23 KB
  • 大小: 134 KB
  • 大小: 148.8 KB
  • 大小: 145.3 KB
  • 大小: 73.5 KB
  • 大小: 89.9 KB
  • 大小: 77 KB
  • 大小: 173.3 KB
  • 大小: 139.9 KB
  • 大小: 59.9 KB
  • 大小: 80.6 KB
  • 大小: 65.4 KB
  • 大小: 206.4 KB
  • 大小: 91.2 KB
  • 大小: 160.6 KB
  • 大小: 244.3 KB
  • 大小: 187.2 KB
  • 大小: 52.2 KB
  • 大小: 102.4 KB
  • 大小: 70.6 KB
  • 大小: 109.6 KB
  • 大小: 87.3 KB
  • 大小: 43.5 KB
分享到:
评论

相关推荐

    hdfs_design, hadoop file system design

    Hadoop Distributed File System (HDFS) 是一种专为运行在低成本硬件上的分布式文件系统而设计的架构。它与现有的分布式文件系统有许多相似之处,但也存在一些显著差异。HDFS 具有高度的容错性,并且针对大型数据集...

    hdfsFile.zip, windows下调试hadoop,.hdfs的2个文件hadoop.dll,winutils.exe

    在Windows环境下调试Hadoop,尤其是涉及HDFS(Hadoop Distributed File System)的操作时,经常会遇到需要配置和使用`winutils.exe`和`hadoop.dll`的情况。这两个文件是Apache Hadoop在Windows操作系统上的关键组件,...

    Hadoop+HDFS和MapReduce架构浅析

    本文旨在深入剖析Hadoop中的两大核心组件——HDFS(Hadoop Distributed File System)和MapReduce的工作原理及其实现机制。首先,我们将介绍Hadoop NameNode与DataNode的基本运行模式;随后,将重点分析MapReduce的...

    hadoop.rar

    Hadoop的核心组件包括HDFS(Hadoop Distributed File System)和MapReduce,这两个组件共同构建了一个可扩展、容错性强的系统,能够处理和存储海量数据。 **Hadoop简介** Hadoop最初由Doug Cutting创建,灵感来源于...

    实验2-Hadoop安装与HDFS基础实践.nbn.zip

    在本实验中,我们将深入探讨Hadoop的安装过程及其核心组件HDFS(Hadoop Distributed File System)的基础操作。Hadoop是大数据处理领域的基石,尤其在云计算环境中,它扮演着至关重要的角色。通过学习Hadoop,我们...

    Hdfs基本操作1

    HDFS(Hadoop Distributed File System)是 Hadoop 生态系统中的一个核心组件,负责存储和管理大规模数据。作为一个分布式文件系统,HDFS 提供了高可靠性、可扩展性和高性能的存储解决方案。本文将对 HDFS 的基本...

    Hadoop(HDFS).docx

    其中,Hadoop分布式文件系统(Hadoop Distributed File System, HDFS)作为Apache Hadoop项目的核心组件之一,旨在提供高吞吐量的数据访问能力,适用于大规模数据集的存储与处理。 **定义**: HDFS是一种专门为存储...

    Hadoop实战高手之路---从零开始”的第六讲Hadoop图文训练课程:使用HDFS命令行工具操作Hadoop分布式集群初体验

    - **HDFS(Hadoop Distributed File System)**:是Hadoop的核心组件之一,提供了一个高度可靠的数据存储系统,能够在廉价硬件上存储大量数据,并支持数据的高效访问。 - **MapReduce**:是一种编程模型,用于处理和...

    hadoop3.0.0 winutiils

    `hdfs.cmd`则是针对HDFS(Hadoop Distributed File System)的命令行工具,用户可以通过它来操作HDFS上的文件和目录,如上传、下载、删除和查看文件等。 3. **Winutils.exe**:在Windows上运行Hadoop时,`winutils....

    hadoop中hdfs文件(上传、下载、查看)操作.docx

    在Hadoop生态系统中,HDFS(Hadoop Distributed File System)是分布式存储的核心组件,它提供了高容错性和高吞吐量的数据访问。本文件描述的是一个名为`HdfsService`的Java类,该类用于执行HDFS上的基本文件操作,...

    Hadoop大数据平台构建、HDFS配置、启动与验证教学课件.pptx

    在构建Hadoop大数据平台的过程中,HDFS(Hadoop Distributed File System)是至关重要的组件,它提供了高容错性和高吞吐量的数据存储解决方案。本教程将详细讲解如何配置、启动和验证HDFS集群。 首先,任务一是...

    大数据之hadoop分布式集群初次启动.pdf

    HDFS(Hadoop Distributed File System)是 Hadoop 集群中的分布式文件系统,用于存储大规模数据。格式化 HDFS 是 Hadoop 集群的初始化步骤之一。首先,需要删除 master、slave1、slave2 节点中的 HDFS 目录数据,...

    winutils+hadoop(2.6.5) 64位 + hadoop(2.6 64位).7z

    它包括了如HDFS(Hadoop Distributed File System)相关的命令,以及用于配置和管理Hadoop服务的工具。在Windows上运行Hadoop MapReduce或Hive等组件时,通常需要winutils.exe来设置HADOOP_HOME、HADOOP_OPTS等环境...

    hadoop1.1.2

    这个版本主要包含了Hadoop的两个核心组件:Hadoop Distributed File System (HDFS) 和 MapReduce。HDFS是一个高容错性的文件系统,能够运行在廉价的硬件上,而MapReduce则是一种用于大规模数据集并行处理的编程模型...

    hadoop-3.1.4.tar.zip

    1. **源代码**:这是Hadoop项目的核心,由Java语言编写,包括HDFS(Hadoop Distributed File System)和MapReduce这两个主要组件的源码,以及YARN(Yet Another Resource Negotiator)资源管理器和其他相关模块。...

    hadoop273 hdfs的IO操作API所引用的jar包

    在Hadoop生态系统中,HDFS(Hadoop Distributed File System)是分布式存储的核心组件,它为大数据处理提供了可靠的、可扩展的文件系统。针对Hadoop 2.7.3版本,客户端进行HDFS的IO(Input/Output)操作通常需要引用...

    Hadoop应用及相关

    1. **Hadoop Distributed File System (HDFS)**: HDFS是一种分布式文件系统,它将大型数据集分布在大量的节点上,保证了数据的可用性和容错性。HDFS遵循主从结构,由一个NameNode作为主节点管理元数据,多个DataNode...

    hadoop-2.7.7 .tar.gz

    其主要由两个核心组件构成:Hadoop Distributed File System (HDFS) 和 MapReduce。HDFS提供了高容错性的文件存储系统,而MapReduce则负责数据的并行处理。 1. HDFS(Hadoop Distributed File System): - 分区...

Global site tag (gtag.js) - Google Analytics