Hadoop2.x安装 HA（Quorum Journal Manager）

TaoistWar

浏览: 413342 次
性别:
来自: 北京

最近访客更多访客>>

呼呼很安静

bbwang8088

yungaoyue2005

zy_java

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

数据中台

一、Hadoop集群角色

IP	hostname	Name Node	Journal Node	Data Node	Resource Manager	Node Manager	ZooKeeper
172.16.219.122	LAB122 JN1 ZK1 NN1	Active NN	√	√	√	√	√
172.16.219.123	LAB123 JN2 ZK2 NN2	StandbyNN	√	√	√	√	√
172.16.219.124	LAB124 JN3 ZK3		√	√	√	√	√

注：生产环境中DataNode和共享NodeManage一台机器，HA的NN1和NN2两台机器，JN[1－3]各占一台机器（或者其它两台和NN共用），ZK[1－3]各占一台机器。

ZooKeeper的安装配置参见《02.ZooKeeper安装配置》之安装配置（集群）部分

//TODO 猜想：NN和JN共用一台机器可能会性能稍高点，因为本地Socket。暂无空试验。

二、环境配置

1、防火墙关闭

2、SeLinux关闭

3、添加用户和组

4、用户文件数

5、host配置

6、ssh无密码登录

7、jdk安装

三、Hadoop配置

Hadoop的下载与解压

到hadoop.apache.org上下载Hadoop的安装文件，笔者使用的是 “hadoop-1.0.3.tar.gz”。

在发布式安装模式下，所有服务器Hadoop的安装目录需要一样。笔者安装的位置为/opt/hadoop，使用解压命令如下：

tar -zxvf hadoop-2.2.0.tar.gz -C /opt/

ln -s /opt/hadoop-2.2.0 /opt/hadoop

chown -R hadoop:hadoop /opt/hadoop

su hadoop

配置Hadoop

修改hadoop目录下 etc/hadoop/hadoop-env.sh的环境变量：

export JAVA_HOME=/opt/java/jdk

注：/opt/java/jdk为JAVA_HOME

此文件可根据实际情况进行JVM内存配置参数的调整

core-site.xml

修改hadoop目录下etc/hadoop/core-site.xml的配置文件，在<configuration>标签中添加如下内容：

<property>
  <name>fs.defaultFS</name>
  <value>hdfs://mycluster</value>
</property>
<property>
    <name>hadoop.tmp.dir</name>
    <value>/home/${user.name}/tmp</value>
</property>
<property> 
    <name>fs.trash.interval</name> 
    <value>1440</value> 
</property>

说明：

fs.defaultDFS：这里mycluster即为自定义的NameServiceID

hadoop.tmp.dir：设置Hadoop临时目录，（默认/tmp，机器重启会丢失数据！）

fs.trash.interval：开启Hadoop回收站

hdfs-site.xml

修改hadoop目录下conf/hdfs-site.xml的配置文件，在<configuration>标签中添加如下内容：

<!-- enable ha -->
<property>
  <name>dfs.ha.automatic-failover.enabled</name>
  <value>true</value>
</property>
<!-- name for logic ns, and nn host key -->
<property>
  <name>dfs.nameservices</name>
  <value>mycluster</value>
  <description>提供服务的NS逻辑名称，与core-site.xml里的对应</description>   
</property>
<property>
    <name>dfs.ha.namenodes.mycluster</name>
    <value>nn1,nn2</value>
    <description>列出该逻辑名称下的NameNode逻辑名称</description>
</property>
<!-- rpc & http -->
<property>
  <name>dfs.namenode.rpc-address.mycluster.nn1</name>
  <value>NN1:8020</value>
  <description>指定NameNode的RPC位置</description>
</property>
<property>
  <name>dfs.namenode.http-address.mycluster.nn1</name>
  <value>NN1:50070</value>
  <description>指定NameNode的Web Server位置</description>  
</property> 
<property>
  <name>dfs.namenode.rpc-address.mycluster.nn2</name>
  <value>NN2:8020</value>
  <description>指定NameNode的RPC位置</description>
</property>
<property>
  <name>dfs.namenode.http-address.mycluster.nn2</name>
  <value>NN2:50070</value>
  <description>指定NameNode的Web Server位置</description>  
</property>
<!-- journal -->
<property>
  <name>dfs.namenode.shared.edits.dir</name>
  <value>qjournal://JN1:8485;JN2:8485;JN3:8485/mycluster</value>
  <description>指定用于HA存放edits的共享存储</description>
</property>
<property>
  <name>dfs.journalnode.edits.dir</name>
  <value>/home/${user.name}/jn_data</value>
</property>
<!-- fencing -->
<property>
    <name>dfs.ha.fencing.methods</name>
    <value>sshfence</value>
    <description>指定HA做隔离的方法，缺省是ssh，可设为shell</description>
</property>
<property>
  <name>dfs.ha.fencing.ssh.private-key-files</name>
  <value>/home/hadoop/.ssh/id_dsa</value>
  <description>id_dsa或id_rsa，具体与SSH无密码登录的密钥类型有关</description>
</property>
<!-- zookeeper -->
<property>
  <name>ha.zookeeper.quorum</name>
  <value>ZK1:2181,ZK2:2181,ZK3:2181</value>
  <description>指定用于HA的ZooKeeper集群机器列表</description>
</property>
<property>
    <name>ha.zookeeper.session-timeout.ms</name>
    <value>5000</value>
    <description>指定ZooKeeper超时间隔，单位毫秒</description>
</property>
<!-- failover -->
<property>
    <name>dfs.client.failover.proxy.provider.mycluster</name>
    <value>org.apache.hadoop.hdfs.server.namenode.ha.ConfiguredFailoverProxyProvider</value>
    <description>指定客户端用于HA切换的代理类，不同的NS可以用不同的代理类 </description> 
</property>
 
<property>
    <name>dfs.replication</name>
    <value>1</value>
</property>
<property>
    <name>dfs.namenode.name.dir</name>
    <value>/home/${user.name}/dfs_name</value>
</property>
<property>
    <name>dfs.datanode.data.dir</name>
    <value>/home/${user.name}/dfs_data</value>
</property>
<property>
        <name>dfs.support.append</name>
        <value>true</value>
</property>
<property> 
        <name>dfs.datanode.max.xcievers</name> 
        <value>4096</value> 
</property>

说明：

dfs.replication：文件复本数

dfs.namenode.name.dir：设置NameNode存储元数据(fsimage)的本地文件系统位置

dfs.datanode.data.dir：设置DataNode存储数据的本地文件系统位置

dfs.support.append：设置HDFS是否支持在文件末尾追加数据

dfs.datanode.max.xcievers：设置datanode可以创建的最大xcievers数

yarn-site.xml

修改hadoop目录下etc/hadoop/yarn-site.xml的配置文件，在<configuration>标签中添加如下内容：

<property>
    <name>yarn.nodemanager.aux-services</name>
    <value>mapreduce_shuffle</value>
  </property>
  <property>
    <name>yarn.resourcemanager.hostname</name>
    <value>NN1</value>
  </property>
  <property>
    <name>yarn.nodemanager.aux-services.mapreduce.shuffle.class</name>  
    <value>org.apache.hadoop.mapred.ShuffleHandler</value>
  </property>

注：属性名为mapred.job.tracker来配置job tracker交互端口，

mapred-site.xml

修改hadoop目录下etc/hadoop/mapred-site.xml的配置文件，在<configuration>标签中添加如下内容：

<property>
    <name>mapreduce.framework.name</name>
    <value>yarn</value>
</property>

slave

配置子节点：修改hadoop目录etc/hadoop/slave文件，每行一个节点，伪分布式修改内容为：

master

执行

1、启动journalnode

在JN1，JN2，JN3上分别启动journalnode：

sbin/hadoop-daemon.sh start journalnode

2、在使用一个分布式文件系统前需要对其进行格式化：

ActiveNN:

bin/hdfs namenode –format

sbin/hadoop-daemon.sh start namenode

StandbyNN:

hdfs namenode -bootstrapStandby

3、启动ZooKeeper

参考ZooKeeper的安装配置

初始化ZooKeeper

bin/hdfs zkfc -formatZK

启动Hadoop守护进程：

./sbin/start-all.sh

Hadoop守护进程的日志写入到${HADOOP_LOG_DIR}目录（默认为logs下）。

完成全部操作后，停止Hadoop守护进程：

$ sbin/stop-all.sh

验证集群

bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.4.0.jar randomwriter out

Hadoop自带的WEB管理界面

浏览NameNode和JobTracker的WEB管理界面，它们的地址默认为：

NameNode - http://master :50070/dfshealth.jsp

Yarn - http://master:8088

eclipse:

ant jar -Dversion=2.4.0 -Declipse.home=D:\WorkTools\MyEclipse10\Common -Dhadoop.home=D:\SDK\hadoop-2.4.0

ant jar -Dversion=2.4.0

参考：

http://www.infoq.com/cn/articles/hadoop-2-0-namenode-ha-federation-practice-zh

http://www.sqlparty.com/hdfs%E7%8E%AF%E5%A2%83%E6%90%AD%E5%BB%BA-namenode-ha%E6%90%AD%E5%BB%BA%E5%AE%9E%E5%BD%95/

http://www.sqlparty.com/hdfs%E7%8E%AF%E5%A2%83%E6%90%AD%E5%BB%BA-namenode-ha%E5%8E%9F%E7%90%86%E4%B8%8E%E5%9F%BA%E6%9C%AC%E9%85%8D%E7%BD%AE/

http://www.tuicool.com/articles/Zz2UZv

http://yanbohappy.sinaapp.com/?p=205

http://yanbohappy.sinaapp.com/?p=50

http://yanbohappy.sinaapp.com/?p=55

http://yanbohappy.sinaapp.com/?p=84

http://yanbohappy.sinaapp.com/?p=101

http://www.byywee.com/page/M0/S934/934356.html

//TODO 从已使用的集群安装HA（Ambari）

本人原创，转载保留链接：http://taoistwar.iteye.com/blog/2092015

分享到：

ZooKeeper安装配置 | Hadoop 1.x安装配置

2014-07-14 19:51
浏览 917
评论(0)
分类:企业架构
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论