HDFS 采用了主从(Master/Slave)结构模型,一个HDFS 集群是由一个NameNode 和若干个DataNode 组成的。其中NameNode 作为主服务器,
管理文件系统的命名空间和客户端对文件的访问操作;集群中的DataNode 管理存储的数据。
sudo apt-get install sun-java6-jdk
这里先解释一下sudo 与apt 这两个命令,sudo 这个命令允许普通用户执行某些或全部
需要root 权限命令,它提供了详尽的日志,可以记录下每个用户使用这个命令做了些什么操
作;同时sudo 也提供了灵活的管理方式,可以限制用户使用命令。sudo 的配置文件为/etc/
sudoers。
apt 的全称为the Advanced Packaging Tool,是Debian 计划的一部分,是Ubuntu 的软件
包管理软件,通过apt 安装软件无须考虑软件的依赖关系,可以直接安装所需要的软件,apt
会自动下载有依赖关系的包,并按顺序安装,在Ubuntu 中安装有apt 的一个图形化界面程序
synaptic(中文译名为“新立得”),
sudo apt-get install ssh
ssh-keygen -t dsa -P '' -f ~/.ssh/id_dsa
解释一下,ssh-keygen 代表生成密钥;-t(注意区分大小写)表示指定生成的密钥类型;
dsa 是dsa 密钥认证的意思,即密钥类型;-P 用于提供密语;-f 指定生成的密钥文件
cat ~/.ssh/id_dsa.pub >> ~/.ssh/authorized_keys
这段话的意思是把公钥加到用于认证的公钥文件中,这里的authorized_keys 是用于认证
的公钥文件。
Hadoop 分别从三个角度将主机划分为两种角色。第一,划分为master 和slave,即主人
与奴隶;第二,从HDFS 的角度,将主机划分为NameNode 和DataNode(在分布式文件系
统中,目录的管理很重要,管理目录的就相当于主人,而NameNode 就是目录管理者);第
三,从MapReduce 的角度,将主机划分为JobTracker 和TaskTracker(一个job 经常被划分
为多个task,从这个角度不难理解它们之间的关系)。
格式化Hadoop 的文件系统HDFS
bin/Hadoop NameNode -format
Hadoop 的配置文件分为两类:
只读类型的默认文件:src/core/core-default.xml、src/hdfs/hdfs-default.xml、src/
mapred/mapred-default.xml、conf/mapred-queues.xml
定位(site-specific)设置:conf/core-site.xml、conf/hdfs-site.xml、conf/mapred-site.xml、
conf/mapred-queues.xml。
Hadoop 允许定义最终参数(final parameters),如果任意资源声明了final 这个值,那
么之后加载的任何资源都不能改变这个值,定义最终资源的格式是这样的:
<property>
<name>dfs.client.buffer.dir</name>
<value>/tmp/Hadoop/dfs/client</value>
<final>true</final> // 注意这个值
</property>
Hadoop 允许参数传递,如下所示,当tempdir 被调用时,basedir 会作为值被调用
<property>
<name>basedir</name>
<value>/user/${user.name}</value>
</property>
<property>
<name>tempdir</name>
<value>${basedir}/tmp</value>
</property>
conf/core-site.xml 的配置
fs.default.name NameNode 的IP 地址及端口
conf/hdfs-site.xml 的配置
dfs.name.dir NameNode 存储名字空间及汇报日志的位置
dfs.data.dir DataNode 存储数据块的位置
conf/mapred-site.xml 的配置
mapreduce.jobtracker.address JobTracker 的IP 地址及端口
mapreduce.jobtracker.system.dir MapReduce 在HDFS 上存储文件的位置, 例如/Hadoop/mapred/system/
mapreduce.cluster.local.dir MapReduce 的缓存数据存储在文件系统上的位置
mapred.tasktracker.{map|reduce}.tasks.maximum 每台TaskTracker 所能运行的Map 或Reduce 的task 最大数量
dfs.hosts/dfs.hosts.exclude 允许或禁止的DataNode 列表
mapreduce.jobtracker.hosts.filename/
mapreduce.jobtracker.hosts.exclude.filename 允许或禁止的TaskTrackers 列表
mapreduce.cluster.job-authorization-enabled 布尔类型,标志着job 存取控制列表是否支持对job 的观察和修改
重启坏掉的DataNode 或JobTracker。
bin/Hadoop-daemon.sh start DataNode
bin/Hadoop-daemon.sh start jobtracker
动态加入DataNode 或TaskTracker。这个命令允许用户动态将某个节点加入集群中。
bin/Hadoop-daemon.sh --config ./conf start DataNode
bin/Hadoop-daemon.sh --config ./conf start tasktracker
相关推荐
"HDFS体系结构详解" HDFS(Hadoop Distributed File System)是一种分布式文件系统,旨在存储和管理大规模数据。HDFS体系结构主要由两部分组成:NameNode和DataNode。 NameNode NameNode是HDFS的中心节点,负责...
Java-HDFS 体系结构与基本概念 HDFS(Hadoop Distributed File System)是一种分布式文件系统,主要用于存储和管理大规模数据。HDFS 的设计初衷是为了满足高性能、高可靠性和高可扩展性的需求。 HDFS 体系结构 ...
HDFS体系结构的设计理念是简单、容错性和高吞吐量的数据访问。 HDFS的主要特点是为流式数据访问而设计,这意味着它更适合一次性写入、多次读取的场景。文件一旦写入,就不能被修改,只能追加内容。这种设计简化了...
Hadoop 培训课程(2)HDFS ...HDFS体系结构与基本概念*** HDFS的shell操作*** java接口及常用api*** ---------------------------加深拓展---------------------- RPC调用** HDFS的分布式存储架构的源码分析**
1.1.1 HDFS体系结构 1 1.1.2 HDFS基本概念 2 1.2 HDFS通信协议 4 1.2.1 Hadoop RPC接口 4 1.2.2 流式接口 20 1.3 HDFS主要流程 22 1.3.1 HDFS客户端读流程 22 1.3.2 HDFS客户端写流程 24 1.3.3 HDFS...
03) 介绍HDFS体系结构及shell、java操作方式;04) 介绍MapReduce体系结构及各种算法;05) 介绍MapReduce体系结构及各种算法;06) 介绍Hadoop集群;07) 介绍zookeeper操作;08) 介绍HBase体系结构及基本操作;09) 介绍pig...
#### 一、HDFS体系结构概述 HDFS(Hadoop Distributed File System,Hadoop分布式文件系统)是一种专为大规模数据集设计的分布式文件系统,其核心设计理念是“移动计算而非数据”。HDFS采用了一种主-从(Master-...
#### 2.2 HDFS体系结构 HDFS将大文件分割成多个块,并将这些块复制到不同的DataNode上,以提高容错性和可用性。默认的块大小通常为128MB或256MB。NameNode维护着文件系统命名空间和块信息的元数据。 #### 2.3 ...
#### HDFS体系结构 **数据块**:HDFS中的文件被分割成固定大小的数据块,默认大小为128MB。这种设计减少了寻址开销,提高了读写效率,同时支持超大文件的存储。 **Namenode与Datanode**: - **Namenode**:作为...
本文主要介绍了基于 Hadoop 集群平台的计算架构,包括 Hadoop 简介、HDFS 体系结构、Hadoop 集群搭建等方面的知识点。 Hadoop 简介 Hadoop 是 Apache 下的一个开源项目,是一个基于分布式并行编程框架,由 HDFS、...
本节将对分布式文件系统HDFS进行详细的介绍,包括分布式文件系统的定义、HDFS相关概念、HDFS体系结构、HDFS存储原理、HDFS数据读写过程、HDFS编程实践等。 分布式文件系统是指将文件分布存储到多个计算机节点上,...
【HDFS体系结构】 HDFS系统由一个NameNode和多个DataNode组成。NameNode作为中心服务器,存储文件系统的元数据,包括文件与数据块的映射关系、文件的权限信息等。DataNode则负责存储数据块,并定期向NameNode发送...
### HDFS体系结构与基本概念 HDFS由NameNode和DataNode组成。NameNode是主节点,负责元数据管理,如文件系统的命名空间(文件和目录的树形结构)和文件块信息。DataNode是数据节点,存储实际的数据块。客户端在HDFS...
HDFS体系结构: HDFS采用Master/Slave的架构来存储数据,主要由四个部分组成: 1. HDFS Client:文件切分、文件上传、与NameNode交互、与DataNode交互、命令管理HDFS。 2. NameNode:master,管理HDFS的名称空间、...
Day2 介绍HDFS体系结构及shell、java操作方式 Day3 介绍MapReduce体系结构(1) Day4 介绍MapReduce体系结构(2) Day5 介绍Hadoop集群、zookeeper操作 Day6 介绍HBase体系结构及基本操作 Day7 介绍Hive、sqoop体系结构...
HDFS体系结构主要包括两个主要组件:NameNode和DataNode。NameNode作为整个文件系统的管理者,负责维护文件系统的命名空间,即文件和目录的元数据,包括文件名、文件块列表以及文件块所在的DataNode等信息。同时,...
【大纲】hdfs 概述hdfs 体系结构hdfs java调用RPC和HDFS调用hdfs文件读写流程分析数据回收站HA和FederationHDFS常见问题
《深入理解HDFS:原理、体系结构与新特性》 Hadoop Distributed File System(HDFS)是Apache Hadoop项目的核心组件之一,专为处理大规模数据集而设计的分布式文件系统。随着互联网的发展,数据量呈指数级增长,...