`
韩悠悠
  • 浏览: 839906 次
  • 性别: Icon_minigender_1
  • 来自: 深圳
社区版块
存档分类
最新评论

HDFS 的体系结构

 
阅读更多

HDFS 采用了主从(Master/Slave)结构模型,一个HDFS 集群是由一个NameNode 和若干个DataNode 组成的。其中NameNode 作为主服务器,
管理文件系统的命名空间和客户端对文件的访问操作;集群中的DataNode 管理存储的数据。


sudo apt-get install sun-java6-jdk
这里先解释一下sudo 与apt 这两个命令,sudo 这个命令允许普通用户执行某些或全部
需要root 权限命令,它提供了详尽的日志,可以记录下每个用户使用这个命令做了些什么操
作;同时sudo 也提供了灵活的管理方式,可以限制用户使用命令。sudo 的配置文件为/etc/
sudoers。

apt 的全称为the Advanced Packaging Tool,是Debian 计划的一部分,是Ubuntu 的软件
包管理软件,通过apt 安装软件无须考虑软件的依赖关系,可以直接安装所需要的软件,apt
会自动下载有依赖关系的包,并按顺序安装,在Ubuntu 中安装有apt 的一个图形化界面程序
synaptic(中文译名为“新立得”),

sudo apt-get install ssh
ssh-keygen -t dsa -P '' -f ~/.ssh/id_dsa
解释一下,ssh-keygen 代表生成密钥;-t(注意区分大小写)表示指定生成的密钥类型;
dsa 是dsa 密钥认证的意思,即密钥类型;-P 用于提供密语;-f 指定生成的密钥文件

cat ~/.ssh/id_dsa.pub >> ~/.ssh/authorized_keys
这段话的意思是把公钥加到用于认证的公钥文件中,这里的authorized_keys 是用于认证
的公钥文件。

Hadoop 分别从三个角度将主机划分为两种角色。第一,划分为master 和slave,即主人
与奴隶;第二,从HDFS 的角度,将主机划分为NameNode 和DataNode(在分布式文件系
统中,目录的管理很重要,管理目录的就相当于主人,而NameNode 就是目录管理者);第
三,从MapReduce 的角度,将主机划分为JobTracker 和TaskTracker(一个job 经常被划分
为多个task,从这个角度不难理解它们之间的关系)。

格式化Hadoop 的文件系统HDFS
bin/Hadoop NameNode -format


Hadoop 的配置文件分为两类:
只读类型的默认文件:src/core/core-default.xml、src/hdfs/hdfs-default.xml、src/
mapred/mapred-default.xml、conf/mapred-queues.xml
定位(site-specific)设置:conf/core-site.xml、conf/hdfs-site.xml、conf/mapred-site.xml、
conf/mapred-queues.xml。

Hadoop 允许定义最终参数(final parameters),如果任意资源声明了final 这个值,那
么之后加载的任何资源都不能改变这个值,定义最终资源的格式是这样的:
<property>
<name>dfs.client.buffer.dir</name>
<value>/tmp/Hadoop/dfs/client</value>
<final>true</final> // 注意这个值
</property>

Hadoop 允许参数传递,如下所示,当tempdir 被调用时,basedir 会作为值被调用
<property>
<name>basedir</name>
<value>/user/${user.name}</value>
</property>
<property>
<name>tempdir</name>
<value>${basedir}/tmp</value>
</property>

 

 conf/core-site.xml 的配置
fs.default.name NameNode 的IP 地址及端口

conf/hdfs-site.xml 的配置
dfs.name.dir NameNode 存储名字空间及汇报日志的位置
dfs.data.dir DataNode 存储数据块的位置

conf/mapred-site.xml 的配置
mapreduce.jobtracker.address  JobTracker 的IP 地址及端口
mapreduce.jobtracker.system.dir  MapReduce 在HDFS 上存储文件的位置, 例如/Hadoop/mapred/system/
mapreduce.cluster.local.dir  MapReduce 的缓存数据存储在文件系统上的位置
mapred.tasktracker.{map|reduce}.tasks.maximum  每台TaskTracker 所能运行的Map 或Reduce 的task 最大数量
dfs.hosts/dfs.hosts.exclude  允许或禁止的DataNode 列表
mapreduce.jobtracker.hosts.filename/
mapreduce.jobtracker.hosts.exclude.filename  允许或禁止的TaskTrackers 列表
mapreduce.cluster.job-authorization-enabled  布尔类型,标志着job 存取控制列表是否支持对job 的观察和修改


重启坏掉的DataNode 或JobTracker。
bin/Hadoop-daemon.sh start DataNode
bin/Hadoop-daemon.sh start jobtracker

动态加入DataNode 或TaskTracker。这个命令允许用户动态将某个节点加入集群中。
bin/Hadoop-daemon.sh --config ./conf start DataNode
bin/Hadoop-daemon.sh --config ./conf start tasktracker


 

分享到:
评论

相关推荐

    HDFS体系结构(NameNode、DataNode详解)

    "HDFS体系结构详解" HDFS(Hadoop Distributed File System)是一种分布式文件系统,旨在存储和管理大规模数据。HDFS体系结构主要由两部分组成:NameNode和DataNode。 NameNode NameNode是HDFS的中心节点,负责...

    java-Hdfs体系结构与基本概念

    Java-HDFS 体系结构与基本概念 HDFS(Hadoop Distributed File System)是一种分布式文件系统,主要用于存储和管理大规模数据。HDFS 的设计初衷是为了满足高性能、高可靠性和高可扩展性的需求。 HDFS 体系结构 ...

    HDFS体系结构解析.pptx

    HDFS体系结构的设计理念是简单、容错性和高吞吐量的数据访问。 HDFS的主要特点是为流式数据访问而设计,这意味着它更适合一次性写入、多次读取的场景。文件一旦写入,就不能被修改,只能追加内容。这种设计简化了...

    Hadoop 培训课程(2)HDFS

    Hadoop 培训课程(2)HDFS ...HDFS体系结构与基本概念*** HDFS的shell操作*** java接口及常用api*** ---------------------------加深拓展---------------------- RPC调用** HDFS的分布式存储架构的源码分析**

    hdfs源码.zip

    1.1.1 HDFS体系结构 1 1.1.2 HDFS基本概念 2 1.2 HDFS通信协议 4 1.2.1 Hadoop RPC接口 4 1.2.2 流式接口 20 1.3 HDFS主要流程 22 1.3.1 HDFS客户端读流程 22 1.3.2 HDFS客户端写流程 24 1.3.3 HDFS...

    传智7天Hadoop培训视频

    03) 介绍HDFS体系结构及shell、java操作方式;04) 介绍MapReduce体系结构及各种算法;05) 介绍MapReduce体系结构及各种算法;06) 介绍Hadoop集群;07) 介绍zookeeper操作;08) 介绍HBase体系结构及基本操作;09) 介绍pig...

    HDFS存储系统

    #### 一、HDFS体系结构概述 HDFS(Hadoop Distributed File System,Hadoop分布式文件系统)是一种专为大规模数据集设计的分布式文件系统,其核心设计理念是“移动计算而非数据”。HDFS采用了一种主-从(Master-...

    hadoop日记2.1:hdfs设计思想和基础概念

    #### HDFS体系结构 **数据块**:HDFS中的文件被分割成固定大小的数据块,默认大小为128MB。这种设计减少了寻址开销,提高了读写效率,同时支持超大文件的存储。 **Namenode与Datanode**: - **Namenode**:作为...

    基于Hadoop集群平台的计算架构.pdf

    本文主要介绍了基于 Hadoop 集群平台的计算架构,包括 Hadoop 简介、HDFS 体系结构、Hadoop 集群搭建等方面的知识点。 Hadoop 简介 Hadoop 是 Apache 下的一个开源项目,是一个基于分布式并行编程框架,由 HDFS、...

    Chapter3-厦门大学-林子雨-大数据技术原理与应用-第3讲-分布式文件系统HDFS(中国大学MOOC2018年春季学期)1

    本节将对分布式文件系统HDFS进行详细的介绍,包括分布式文件系统的定义、HDFS相关概念、HDFS体系结构、HDFS存储原理、HDFS数据读写过程、HDFS编程实践等。 分布式文件系统是指将文件分布存储到多个计算机节点上,...

    云计算之HDFS.ppt

    【HDFS体系结构】 HDFS系统由一个NameNode和多个DataNode组成。NameNode作为中心服务器,存储文件系统的元数据,包括文件与数据块的映射关系、文件的权限信息等。DataNode则负责存储数据块,并定期向NameNode发送...

    分布式存储系统-HDFS.docx

    ### HDFS体系结构与基本概念 HDFS由NameNode和DataNode组成。NameNode是主节点,负责元数据管理,如文件系统的命名空间(文件和目录的树形结构)和文件块信息。DataNode是数据节点,存储实际的数据块。客户端在HDFS...

    Hadoop HDFS文件系统技术概述.pdf

    HDFS体系结构: HDFS采用Master/Slave的架构来存储数据,主要由四个部分组成: 1. HDFS Client:文件切分、文件上传、与NameNode交互、与DataNode交互、命令管理HDFS。 2. NameNode:master,管理HDFS的名称空间、...

    妳那伊抹微笑_云计算之Hadoop完美笔记2.0

    Day2 介绍HDFS体系结构及shell、java操作方式 Day3 介绍MapReduce体系结构(1) Day4 介绍MapReduce体系结构(2) Day5 介绍Hadoop集群、zookeeper操作 Day6 介绍HBase体系结构及基本操作 Day7 介绍Hive、sqoop体系结构...

    Hadoop深入浅出之HDFS介绍.pptx

    HDFS体系结构主要包括两个主要组件:NameNode和DataNode。NameNode作为整个文件系统的管理者,负责维护文件系统的命名空间,即文件和目录的元数据,包括文件名、文件块列表以及文件块所在的DataNode等信息。同时,...

    大数据存储与处理技术 hadoop技术原理及应用 HDFS原理深入理解 共21页.pptx

    【大纲】hdfs 概述hdfs 体系结构hdfs java调用RPC和HDFS调用hdfs文件读写流程分析数据回收站HA和FederationHDFS常见问题

    HDFS原理和体系结构.pptx

    《深入理解HDFS:原理、体系结构与新特性》 Hadoop Distributed File System(HDFS)是Apache Hadoop项目的核心组件之一,专为处理大规模数据集而设计的分布式文件系统。随着互联网的发展,数据量呈指数级增长,...

Global site tag (gtag.js) - Google Analytics