CDH Hadoop 集群部署方案 -

muruiheng

浏览: 100443 次
性别:
来自: 北京

最近访客更多访客>>

769306079

weseal

yuxinjian123

pengcong90

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

CDH Hadoop 集群部署方案

博客分类：

hadoop

1、集群规划

主机名称    主机IP        安装软件    运行的进程
node1    10.1.19.100    zookeepr1    DataNode、NodeManager、JournalNode、QuorumPeerMain
node2    10.1.19.144    zookeepr2    DataNode、NodeManager、JournalNode、QuorumPeerMain
node3    10.1.19.146    zookeepr3    DataNode、NodeManager、JournalNode、QuorumPeerMain
node4    10.1.19.148                NameNode、DFSZKFailoverController(zkfc)
node5    10.1.19.149                NameNode、DFSZKFailoverController(zkfc)
node6    10.1.19.158                ResourceManager
node7    10.1.19.157                ResourceManager

2、 OS 配置信息
内存：4G

CPU：4核

OS： Linux RedHat 企业版64bit

JDK：1.7.1

Hadoop： hadoop-2.6.0-cdh5.5.1

3、准备工作

3.1 编译源码

编译源码过程： Hadoop学习笔记 6 Hadoop源码编译编译好的源码见附件：

3.2 JDK配置安装

使用tar命令，将JDK解压到 /usr/目录下

配置/etc/profile，配置好JDK环境变量，使用source /etc/profile

使用which java 验证jdk环境变量配置信息是否成功

4、安装Hadoop

使用tar 命令将hadoop压缩文件解压到 /usr/hadoop/目录下

然后修改配置文件：hadoop-env.sh、core-site.xml、 hdfs-site.xml、mapred-site.xml、yarn-site.xml、slaves

4.1 hadoop-env.sh

配置JDK的根路径

export JAVA_HOME=/usr/java/jdk1.7.0_71

4.2 core-site.xml

<configuration>
    
    <property>
        <name>fs.defaultFS</name>
        <value>hdfs://ns1</value>
    </property>
    
    <property>
        <name>hadoop.tmp.dir</name>
        <value>/usr/local/hadoop-2.7.1/tmp</value>
    </property>
    
    <property>
        <name>ha.zookeeper.quorum</name>
        <value>hadoop01:2181,hadoop02:2181,hadoop03:2181</value>
    </property>
</configuration>

4.3 hdfs-site.xml

<configuration>
    
    <property>
        <name>dfs.nameservices</name>
        <value>ns1</value>
    </property>
    
    <property>
        <name>dfs.ha.namenodes.ns1</name>
        <value>nn1,nn2</value>
    </property>
    
    <property>
        <name>dfs.namenode.rpc-address.ns1.nn1</name>
        <value>hadoop04:9000</value>
    </property>
    
    <property>
        <name>dfs.namenode.http-address.ns1.nn1</name>
        <value>hadoop04:50070</value>
    </property>
    
    <property>
        <name>dfs.namenode.rpc-address.ns1.nn2</name>
        <value>hadoop05:9000</value>
    </property>
    
    <property>
        <name>dfs.namenode.http-address.ns1.nn2</name>
        <value>hadoop05:50070</value>
    </property>
    
    <property>
        <name>dfs.namenode.shared.edits.dir</name>
        <value>qjournal://hadoop01:8485;hadoop02:8485;hadoop03:8485/ns1</value>
    </property>
    
    <property>
        <name>dfs.journalnode.edits.dir</name>
        <value>/usr/local/hadoop-2.7.1/journal</value>
    </property>
    
    <property>
        <name>dfs.ha.automatic-failover.enabled</name>
        <value>true</value>
    </property>
    
    <property>
        <name>dfs.client.failover.proxy.provider.ns1</name>
        <value>org.apache.hadoop.hdfs.server.namenode.ha.ConfiguredFailoverProxyProvider</value>
    </property>
    
    <property>
        <name>dfs.ha.fencing.methods</name>
        <value>
            sshfence
            shell(/bin/true)
        </value>
    </property>
    
    <property>
        <name>dfs.ha.fencing.ssh.private-key-files</name>
        <value>/root/.ssh/id_rsa</value>
    </property>
    
    <property>
        <name>dfs.ha.fencing.ssh.connect-timeout</name>
        <value>30000</value>
    </property>
</configuration>

4.4 mapred-site.xml
<configuration>
    
    <property>
        <name>mapreduce.framework.name</name>
        <value>yarn</value>
    </property>
</configuration>

4.5 yarn-site.xml

<configuration>

       
        <property>
                <name>yarn.resourcemanager.connect.retry-interval.ms</name>
                <value>2000</value>
        </property>
          <property>
             <name>yarn.resourcemanager.ha.enabled</name>
             <value>true</value>
          </property>
        <property>
                <name>yarn.resourcemanager.ha.automatic-failover.enabled</name>
                <value>true</value>
        </property>
        
        <property>
                <name>yarn.resourcemanager.ha.automatic-failover.embedded</name>
                <value>true</value>
        </property>
        
        <property>
                 <name>yarn.resourcemanager.cluster-id</name>
                 <value>yrc</value>
          </property>
        <property>
                <name>yarn.resourcemanager.ha.rm-ids</name>
                <value>rm1,rm2</value>
        </property>
      <property>
         <name>yarn.resourcemanager.hostname.rm1</name>
         <value>node6</value>
      </property>
      <property>
         <name>yarn.resourcemanager.hostname.rm2</name>
         <value>node7</value>
      </property>
       <property>
                <name>yarn.resourcemanager.scheduler.class</name>
                <value>org.apache.hadoop.yarn.server.resourcemanager.scheduler.fair.FairScheduler</value>
        </property>
        <property>
                <name>yarn.resourcemanager.recovery.enabled</name>
                <value>true</value>
        </property>
        <property>
                <name>yarn.app.mapreduce.am.scheduler.connection.wait.interval-ms</name>
                <value>5000</value>
        </property>
        
        <property>
                <name>yarn.resourcemanager.store.class</name>
                <value>org.apache.hadoop.yarn.server.resourcemanager.recovery.ZKRMStateStore</value>
        </property>
        <property>
                <name>yarn.resourcemanager.zk-address</name>
                <value>node1:2181,node2:2181,node3:2181</value>
        </property>
        <property>
                <name>yarn.resourcemanager.zk.state-store.address</name>
                <value>node1:2181,node2:2181,node3:2181</value>
        </property>
        
        <property>
                <name>yarn.resourcemanager.address.rm1</name>
                <value>node6:23140</value>
        </property>
        <property>
                <name>yarn.resourcemanager.address.rm2</name>
                <value>node7:23140</value>
        </property>
        
        <property>
                <name>yarn.resourcemanager.scheduler.address.rm1</name>
                <value>node6:23130</value>
        </property>
        <property>
                <name>yarn.resourcemanager.scheduler.address.rm2</name>
                <value>node7:23130</value>
        </property>
        
        <property>
                <name>yarn.resourcemanager.admin.address.rm1</name>
                <value>node6:23141</value>
        </property>
        <property>
                <name>yarn.resourcemanager.admin.address.rm2</name>
                <value>node7:23141</value>
        </property>
        
        <property>
                <name>yarn.resourcemanager.resource-tracker.address.rm1</name>
                <value>node6:23125</value>
        </property>
        <property>
                <name>yarn.resourcemanager.resource-tracker.address.rm2</name>
                <value>node7:23125</value>
        </property>
        
        <property>
                <name>yarn.resourcemanager.webapp.address.rm1</name>
                <value>node6:23188</value>
        </property>
        <property>
                <name>yarn.resourcemanager.webapp.address.rm2</name>
                <value>node7:23188</value>
        </property>
        <property>
                <name>yarn.resourcemanager.webapp.https.address.rm1</name>
                <value>node6:23189</value>
        </property>
        <property>
                <name>yarn.resourcemanager.webapp.https.address.rm2</name>
                <value>node7:23189</value>
        </property>

        <property>
                         <name>yarn.nodemanager.aux-services</name>
                         <value>mapreduce_shuffle</value>
          </property>
</configuration>

4.6 slaves

slaves是指定子节点的位置，
    在node4上启动：HDFS、journalnode
    在node6启动： yarn，
    所以node4上的slaves文件指定的是datanode的位置，
    node6上的slaves文件指定的是nodemanager的位置

    node1
    node2
    node3

5、启动、初始化HDFS环境

5.1 启动zookeeper集群（node1、node2、node3）

使用./zkServer.sh start 命令依次启动三个节点

5.2 启动journalnode

sbin/hadoop-daemons.sh start journalnode

#运行jps命令检验是否启动成功

5.3 格式化HDFS

#在node4上执行命令:
hdfs namenode -format

#格式化后会在根据core-site.xml中的hadoop.tmp.dir配置生成个文件，这里我配置的是/usr/hadoop/hadoop-2.6.0-cdh5.5.1/tmp，然后将/usr/hadoop/hadoop-2.6.0-cdh5.5.1/tmp拷贝到node5、node6、node7的/usr/hadoop/hadoop-2.6.0-cdh5.5.1/下。
scp -r tmp/ node5:/itcast/hadoop-2.7.1/

5.4 格式化ZK(在node4上执行即可)

hdfs zkfc -formatZK

5.5启动HDFS(在node4上执行)
sbin/start-dfs.sh

5.6 启动YARN(#####注意#####：是在node6上执行start-yarn.sh，把namenode和resourcemanager分开是因为性能问题，因为他们都要占用大量资源，所以把他们分开了，他们分开了就要分别在不同的机器上启动)
sbin/start-yarn.sh

分享到：

hive 配置属性列表以及说明 | sqoop2 常见问题以及处理方式

2016-01-07 14:39
浏览 1209
评论(0)
分类:开源软件
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

CDH Hadoop 集群部署方案

评论

发表评论

相关推荐

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

CDH Hadoop 集群部署方案

评论

发表评论

相关推荐

Hbase1.2 Java API 学习笔记

hive 配置 属性列表以及说明

hive 安装部署

sqoop2 使用实例

sqoop2 常见问题 以及处理方式

sqoop2 安装部署、源码编译

Hadoop学习笔记 7 Hbase集群环境搭建

Hadoop学习笔记 6 Hadoop源码编译

Hadoop学习笔记 5 sqoop 初学习

Hadoop学习笔记 4 - 集群环境安装部署

zookeeper 集群安装配置

Hadoop学习笔记 3 - Partioner 学习

Hadoop学习笔记 2 - MapReduce 简单实例

Hadoop学习笔记 1 - hadoop-2.7.1 安装配置

最近访客更多访客>>

hive 配置属性列表以及说明

sqoop2 常见问题以及处理方式