Hadoop集群的搭建
一、 搭建虚拟机
1. 环境准备:
VMware10、[红帽企业Linux.6.4.服务器版].rhel-server-6.4-x86_64-dvd.iso
2. 虚拟机搭建步骤:
a) 傻瓜式安装略
二、 更改主机名和映射
1. 切换到root帐户 su root
2. 执行vi /etc/sysconfig/network
3. 将里面的hostname修改为master
4. Vi /etc/hosts 内容:IP+空格+主机名
5. 需要重新登陆
6. 特别注意将配置文件里的127.0.0.1和loclhost相关配置全部删掉,影响集群访问。
三、 配置ssh免密码登陆
1. 执行命令$ssh-keygen -t rsa 穿件公钥和私钥
2. 执行命令$ssh-copy-id –i 指定主机IP或者主机名(建议使用主机名)
3. 注意:配置好后第一次登陆还是需要输入密码的,另外一定要保证全部测试通过。
四、 配置JDK
1. 准备JDK jdk-7u25-linux-x64.tar
2. 执行命令$ tar –zxvf jdk-7u25-linux-x64.tar 指定目录
3. 执行命令$vi /etc/profile编辑环境变量,在最后面添加内容:
JAVA_HOME=/root/hadoop/java/jdk1.7.0_25
PATH=$PATH:/root/hadoop/java/jdk1.7.0_25/bin
CLASSPATH=.:/root/hadoop/java/jdk1.7.0_25/jre/lib/dt.jar
export JAVA_HOME PATH CLASSPATH
4. 执行命令$ source /etc/profile 立即生效
5. 执行命令$scp –r 文件夹 主机名:~/目录下,输入密码后拷贝开始。
五、 安装及配置zookeeper
1. 首先建议关闭防火墙
2. 准备zookeeper-3.4.5.tar.gz 并上传
3. 执行命令$ tar -zxvf zookeeper-3.4.5.tar.gz 目录,进行解压缩
4. 修改配置
cd /hadoop/zookeeper-3.4.5/conf/
cp zoo_sample.cfg zoo.cfg
vim zoo.cfg
修改:dataDir=/hadoop/zookeeper-3.4.5/tmp
在最后添加:
server.1=hadoop04:2888:3888
server.2=hadoop05:2888:3888
server.3=hadoop06:2888:3888
保存退出
然后创建一个tmp文件夹
mkdir /hadoop/zookeeper-3.4.5/tmp
再创建一个空文件
touch /hadoop/zookeeper-3.4.5/tmp/myid
最后向该文件写入ID
echo 1 > /hadoop/zookeeper-3.4.5/tmp/myid
5. 将配置好的zookeeper拷贝到其他节点(首先分别在hadoop05、hadoop06根目录下创建一个hadoop目录:mkdir /hadoop)
scp -r /hadoop/zookeeper-3.4.5/ hadoop05:/hadoop/
scp -r /hadoop/zookeeper-3.4.5/ hadoop06:/hadoop/
注意:修改hadoop05、hadoop06对应/hadoop/zookeeper-3.4.5/tmp/myid内容
hadoop05:
echo 2 > /hadoop/zookeeper-3.4.5/tmp/myid
hadoop06:
echo 3 > /hadoop/zookeeper-3.4.5/tmp/myid
六、 安装配置hadoop集群
1. 准备hadoop-2.2.0.tar.gz 注意是用32还是64位编译的
2. 执行命令$ tar -zxvf hadoop-2.2.0.tar.gz 目录,进行解压
3. 配置HDFS(hadoop2.0所有的配置文件都在$HADOOP_HOME/etc/hadoop目录下)
将hadoop添加到环境变量中
vim /etc/profile
export JAVA_HOME=/root/hadoop/java/jdk1.7.0_25
export HADOOP_HOME=/hadoop/hadoop-2.2.0
export PATH=$PATH:$JAVA_HOME/bin:$HADOOP_HOME/bin
4. 修改hadoo-env.sh
export JAVA_HOME=/root/hadoop/java/jdk1.7.0_25
5. 修改core-site.xml
<configuration>
<!-- 指定hdfs的nameservice为ns1 -->
<property>
<name>fs.defaultFS</name>
<value>hdfs://ns1</value>
</property>
<!-- 指定hadoop临时目录 -->
<property>
<name>hadoop.tmp.dir</name>
<value>/hadoop/hadoop-2.2.0/tmp</value>
</property>
<!-- 指定zookeeper地址 -->
<property>
<name>ha.zookeeper.quorum</name>
<value>hadoop04:2181,hadoop05:2181,hadoop06:2181</value>
</property>
</configuration>
6. 修改hdfs-site.xml
<configuration>
<!--指定hdfs的nameservice为ns1,需要和core-site.xml中的保持一致 -->
<property>
<name>dfs.nameservices</name>
<value>ns1</value>
</property>
<!-- ns1下面有两个NameNode,分别是nn1,nn2 -->
<property>
<name>dfs.ha.namenodes.ns1</name>
<value>nn1,nn2</value>
</property>
<!-- nn1的RPC通信地址 -->
<property>
<name>dfs.namenode.rpc-address.ns1.nn1</name>
<value>hadoop01:9000</value>
</property>
<!-- nn1的http通信地址 -->
<property>
<name>dfs.namenode.http-address.ns1.nn1</name>
<value>hadoop01:50070</value>
</property>
<!-- nn2的RPC通信地址 -->
<property>
<name>dfs.namenode.rpc-address.ns1.nn2</name>
<value>hadoop02:9000</value>
</property>
<!-- nn2的http通信地址 -->
<property>
<name>dfs.namenode.http-address.ns1.nn2</name>
<value>hadoop02:50070</value>
</property>
<!-- 指定NameNode的元数据在JournalNode上的存放位置 -->
<property>
<name>dfs.namenode.shared.edits.dir</name>
<value>qjournal://hadoop04:8485;hadoop05:8485;hadoop06:8485/ns1</value>
</property>
<!-- 指定JournalNode在本地磁盘存放数据的位置 -->
<property>
<name>dfs.journalnode.edits.dir</name>
<value>/hadoop/hadoop-2.2.0/journal</value>
</property>
<!-- 开启NameNode失败自动切换 -->
<property>
<name>dfs.ha.automatic-failover.enabled</name>
<value>true</value>
</property>
<!-- 配置失败自动切换实现方式 -->
<property>
<name>dfs.client.failover.proxy.provider.ns1</name>
<value>org.apache.hadoop.hdfs.server.namenode.ha.ConfiguredFailoverProxyProvider</value>
</property>
<!-- 配置隔离机制 -->
<property>
<name>dfs.ha.fencing.methods</name>
<value>sshfence</value>
</property>
<!-- 使用隔离机制时需要ssh免登陆 -->
<property>
<name>dfs.ha.fencing.ssh.private-key-files</name>
<value>/root/.ssh/id_rsa</value>
</property>
</configuration>
7. 修改slaves
hadoop04
hadoop05
hadoop06
8. 修改yarn-site.xml
<configuration>
<!-- 指定resourcemanager地址 -->
<property>
<name>yarn.resourcemanager.hostname</name>
<value>hadoop03</value>
</property>
<!-- 指定nodemanager启动时加载server的方式为shuffle server -->
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
</configuration>
9. 修改mapred-site.xml
<configuration>
<!-- 指定mr框架为yarn方式 -->
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
</configuration>
10. 将配置好的hadoop拷贝到其他节点
七、 启动zookeeper集群(分别在hadoop04、hadoop05、hadoop06上启动zk)
启动zookeeper集群:
$cd /hadoop/zookeeper-3.4.5/bin/
$./zkServer.sh start
查看状态:
$./zkServer.sh status
(一个leader,两个follower)
八、 启动journalnode(在hadoop01上启动所有journalnode)
cd /hadoop/hadoop-2.2.0
sbin/hadoop-daemons.sh start journalnode
(运行jps命令检验,多了JournalNode进程)
九、 格式化HDFS
在hadoop01上执行命令:
hadoop namenode -format
格式化后会在根据core-site.xml中的hadoop.tmp.dir配置生成个文件,这里我配置的是/hadoop/hadoop-2.2.0/tmp,然后将/hadoop/hadoop-2.2.0/tmp拷贝到hadoop02的/hadoop/hadoop-2.2.0/下。
$scp -r tmp/ hadoop02:/hadoop/hadoop-2.2.0/
十、 格式化ZK(在hadoop01上执行即可)
$hdfs zkfc -formatZK
十一、 启动HDFS(在hadoop01上执行)
$sbin/start-dfs.sh
十二、 启动YARN(在hadoop01上执行)
$sbin/start-yarn.sh
十三、 So ga 完成了
到此,hadoop2.2.0配置完毕,可以统计浏览器访问:
http://192.168.0.2:50070
NameNode 'hadoop01:9000' (active)
http://192.168.1.202:50070
NameNode 'hadoop02:9000' (standby)
验证HDFS HA
首先向hdfs上传一个文件
hadoop fs -put /etc/profile /profile
hadoop fs -ls /
然后再kill掉active的NameNode
kill -9 <pid of NN>
通过浏览器访问:http://192.168.0.2:50070
NameNode 'hadoop02:9000' (active)
这个时候hadoop02上的NameNode变成了active
在执行命令:
hadoop fs -ls /
-rw-r--r-- 3 root supergroup 1926 2014-02-06 15:36 /profile
刚才上传的文件依然存在!!!
手动启动那个挂掉的NameNode
sbin/hadoop-daemon.sh start namenode
通过浏览器访问:http://192.168.0.2:50070
NameNode 'hadoop01:9000' (standby)
十四、 最后来张快照,记录我第一次搭建成功。耗时一天半,此时特别激动。
集群规划:
主机名 IP 安装的软件 运行的进程
hadoop01 192.168.0.2 jdk、hadoop NameNode、DFSZKFailoverController
hadoop02 192.168.0.3 jdk、hadoop NameNode、DFSZKFailoverController
hadoop03 192.168.0.4 jdk、hadoop ResourceManager
hadoop04 192.168.0.5 jdk、hadoop、zookeeper DataNode、NodeManager、JournalNode、QuorumPeerMain
hadoop05 192.168.0.6 jdk、hadoop、zookeeper DataNode、NodeManager、JournalNode、QuorumPeerMain
hadoop06 192.168.0.7 jdk、hadoop、zookeeper DataNode、NodeManager、JournalNode、QuorumPeerMain
说明:
在hadoop2.0中通常由两个NameNode组成,一个处于active状态,另一个处于standby状态。Active NameNode对外提供服务,而Standby NameNode则不对外提供服务,仅同步active namenode的状态,以便能够在它失败时快速进行切换。
hadoop2.0官方提供了两种HDFS HA的解决方案,一种是NFS,另一种是QJM。这里我们使用简单的QJM。在该方案中,主备NameNode之间通过一组JournalNode同步元数据信息,一条数据只要成功写入多数JournalNode即认为写入成功。通常配置奇数个JournalNode
这里还配置了一个zookeeper集群,用于ZKFC(DFSZKFailoverController)故障转移,当Active NameNode挂掉了,会自动切换Standby NameNode为standby状态
相关推荐
资源名称:hadoop2.2.0集群搭建 资源太大,传百度网盘了,链接在附件中,有需要的同学自取。
Hadoop2.2.0版本 - 虚拟机VMWare - Linux(ubuntu) ,多节点伪分布环境搭建详细操作手册,可以直接用于完全分布。每一步都有自己详细操作记录和相关说明,几夜风雨的辛劳搭建和测试。 此操作手册搭建的集群详细说明: ...
Hadoop2.2.0安装配置手册!完全分布式Hadoop集群搭建过程 按照文档中的操作步骤,一步步操作就可以完全实现hadoop2.2.0版本的完全分布式集群搭建过程
Hadoop2.2.0安装配置手册!完全分布式Hadoop集群搭建过程.
在大数据领域,Hadoop是一个广泛使用的开源框架,用于存储和处理海量数据。本文将详细讲解如何搭建一个...这个超详细的教程覆盖了从零开始到集群搭建完成的全过程,按照步骤执行,可以轻松掌握Hadoop集群搭建技术。
在CentSO_64bit集群搭建,hadoop2.2(64位)编译 新版亮点: 基于yarn计算框架和高可用性DFS的第一个稳定版本。 注1:官网只提供32位release版本, 若机器为64位,需要手动编译。 环境配置是个挺烦人的活,麻烦不说还...
接下来,我们将搭建一个由三台机器组成的Hadoop集群。这三台机器的IP、用户名/密码和主机名如下: - hadoop1 (192.168.101.114):namenode, secondary namenode - hadoop2 (192.168.101.115):datanode, nodemanager...
《Hadoop2.2.0安装配置及实例教程入门宝典》 在大数据处理领域,Hadoop是一个不可或缺的工具,其分布式存储和计算能力为企业级数据处理提供了强大的支持。本教程将带你逐步走进Hadoop的世界,从零开始,教你如何在...
#### 五、搭建ZooKeeper集群 - **下载解压:** 下载ZooKeeper压缩包并解压。 - **参数配置:** 配置ZooKeeper的配置文件,包括数据目录、服务器列表等。 - **启动验证:** 启动ZooKeeper集群,并验证其是否正确运行。 ...
本文介绍了一个Hadoop2.2.0集群的搭建过程,在2台4G内存的酷睿双核PC机上,使用VMWare WorkStation虚拟了4个RHEL6.2(1G内存、单核CPU、10G硬盘),总计用10个小时的时间,完成虚拟机制作和Hadoop建立过程,总体比较...
本文档堪称最齐全的Hadoop-2.2.0搭建手册,不管是对于生手,还是对于想自己动手搭建的生手来说,都是非常有用的;因为自己是生手,看网上好多步骤,但还是有不懂的地方,所以自己整理下来了齐全的生手版,希望对一切...
"Hadoop2完全分布式集群搭建" Hadoop2是一个基于分布式计算的开源大数据处理框架,具有高可扩展性、可靠性和高性能等特点。下面是关于Hadoop2完全分布式集群搭建的知识点总结: 1. 前序 在搭建Hadoop2完全分布式...
本文将详细介绍如何在多台Linux服务器上搭建Hadoop 2.2.0完全分布式集群,并通过具体步骤指导读者完成整个过程。 #### 二、准备工作 在正式开始之前,我们需要确保所有参与集群的机器都已完成以下准备工作: 1. *...
Hadoop集群搭建详解 Hadoop是一个大数据处理框架,由Apache基金会开发和维护。它提供了一个分布式计算环境,能够处理大量数据。Hadoop生态系统包括了多个组件,如HDFS、MapReduce、YARN、HBase、Hive等。 Hadoop...
本文将详细介绍如何在Linux环境下搭建Hadoop2.2.0、HBase0.96和Hive0.12的集群环境。 首先,我们从Hadoop的安装开始。Hadoop2.2.0是Apache官方稳定版,可以从官方网站或镜像站点下载。下载完成后,将其上传到Linux...