`
wbj0110
  • 浏览: 1603615 次
  • 性别: Icon_minigender_1
  • 来自: 上海
文章分类
社区版块
存档分类
最新评论

Hadoop 2.2 YARN分布式集群搭建配置流程

阅读更多

搭建环境准备:JDK1.6,SSH免密码通信

系统:CentOS 6.3

集群配置:NameNode和ResourceManager在一台服务器上,三个数据节点

搭建用户:YARN

Hadoop2.2下载地址:http://www.apache.org/dyn/closer.cgi/hadoop/common/

步骤一:上传Hadoop 2.2 并解压到/export/yarn/hadoop-2.2.0

外层的启动脚本在sbin目录

内层的被调用脚本在bin目录

Native的so文件都在lib/native目录

配置程序文件都放置在libexec

配置文件都在etc目录,对应以前版本的conf目录

所有的jar包都在share/hadoop目录下面

步骤二:配置环境变量

  在~/.bashrc文件中添加以下配置:

export JAVA_HOME=/export/servers/jdk1.6.0_25/
export HADOOP_DEV_HOME=/export/yarn/hadoop-2.2.0
export HADOOP_MAPARED_HOME=${HADOOP_DEV_HOME}
export HADOOP_COMMON_HOME=${HADOOP_DEV_HOME}
export HADOOP_HDFS_HOME=${HADOOP_DEV_HOME}
export YARN_HOME=${HADOOP_DEV_HOME}
export HADOOP_CONF_DIR=${HADOOP_DEV_HOME}/etc/hadoop
export HDFS_CONF_DIR=${HADOOP_DEV_HOME}/etc/hadoop
export YARN_CONF_DIR=${HADOOP_DEV_HOME}/etc/hadoop
export PATH=$PATH:$HADOOP_DEV_HOME/bin:$JAVA_HOME/bin:$HADOOP_DEV_HOME/sbin

  配置完成后,执行source ~/.bashrc命令

步骤三:core-site.xml hdfs-site.xml mapred-site.xml yarn-site.xml配置

  •   Core-site.xml配置
<configuration >
<property>
  <name>fs.defaultFS</name>
  <value>hdfs://master1:9101</value>
<description></description>
</property>
<property>
  <name>hadoop.tmp.dir</name>
  <value>/export/yarn/hadoop-log/</value>
<description>tmp临时目录</description>
</property>
<property>
  <name>io.compression.codecs</name>
 <value>com.hadoop.compression.lzo.LzoCodec,com.hadoop.compression.lzo.LzopCodec</value>
<description>压缩编码,这里配置了LZO</description>
</property>
<property>
  <name>io.compression.codec.lzo.class</name>
  <value>com.hadoop.compression.lzo.LzoCodec</value>
<description>LZO对应类</description>
</property>
<property>
  <name>io.native.lib.available</name>
  <value>true</value>
  <description>是否启用本地native库</description>
</property>
</configuration>
  • Hdfs-site.xml
<configuration>
<property>
  <name>dfs.namenode.name.dir</name>
  <value>/export/yarn/hadoop-log/nd</value>
</property>
<property>
  <name>dfs.datanode.data.dir</name>
  <value>/export/yarn/hadoop-log/dd</value>
</property>
<property>
  <name>dfs.namenode.http-address</name>
  <value>0.0.0.0:60176</value>
  <description>namenode http 地址</description>
</property>              
<property>
  <name>dfs.datanode.address</name>
  <value>0.0.0.0:60116</value>
</property>
<property>
  <name>dfs.datanode.ipc.address</name>
  <value>0.0.0.0:60126</value>
</property>
<property>
  <name>dfs.datanode.http.address</name>
  <value>0.0.0.0:60176</value>
</property>
<property>
  <name>dfs.secondary.http.address</name>
  <value>0.0.0.0:60196</value>
</property>
</configuration>
  • Mapred-site.xml
<configuration>
    <property>
        <name>mapreduce.framework.name</name>
        <value>yarn</value>
    </property>
</configuration>        
  • yarn-site.xml
<configuration>
<!-- Site specific YARN configuration properties -->
<property>
<name>yarn.resourcemanager.address</name>
<value>master1:8032</value>
</property>
<property>
<name>yarn.resourcemanager.scheduler.address</name>
<value>master1:8030</value>
</property>
<property>
<name>yarn.resourcemanager.webapp.address</name>
<value>master1:8088</value>
</property>
<property>
<name>yarn.resourcemanager.resource-tracker.address</name>
<value>master1:8031</value>
</property>
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
<property>
 <name>yarn.resourcemanager.scheduler.class</name>
 <value>org.apache.hadoop.yarn.server.resourcemanager.scheduler.fair.FairScheduler</value>
</property>
<property>
 <name>yarn.scheduler.fair.allocation.file</name>
 <value>fair-scheduler.xml</value>
</property>
</configuration>

  注:这里配置了Hadoop 2.2 FairScheduler调度器

步骤四:slaves配置

       将三个数据节点配置到slaves中

步骤五:将配置好的Hadoop 2.2 分发同步到各个数据节点

步骤六:格式化NameNode

       执行命令:hdfs namenode –format

              或者 hadoop namenode –format

步骤七:启动hdfs和yarn

       启动Hdfs: start-dfs.sh

       启动yarn: start-yarn.sh

       或者可以执行start-all.sh一起启动hdfs和yarn

步骤八:测试

       Hdfs测试:

              向hdfs中上传文件:hdfs dfs –put abc /input

              查看hdfs文件目录:hdfs dfs –ls /

       Yarn测试:

              运行WordCount测试程序:

     hadoop jar /export/yarn/hadoop-2.2.0/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.2.0.jar wordcount /input /out

 

http://blog.csdn.net/uf_fantn/article/details/16989183

分享到:
评论

相关推荐

    Hadoop3.0版本分布式搭建

    ### Hadoop 3.0 分布式集群搭建详解 #### 一、概述 Hadoop 是一个能够对大量数据进行分布式处理的软件框架。Hadoop 的核心是 HDFS 和 MapReduce,其中 HDFS 用于存储数据,MapReduce 则提供了一个大规模数据集的...

    HADOOP 2.2 集群配置(适合LINUX初学者)

    我们将覆盖集群搭建的基础知识,包括环境准备、配置步骤、启动与验证等环节。 首先,了解Hadoop的架构至关重要。Hadoop由两个主要组件构成:Hadoop Distributed File System (HDFS) 和 MapReduce。HDFS是分布式文件...

    hadoop2.4.1伪分布式搭建

    ### Hadoop 2.4.1 伪分布式环境搭建详细步骤 #### 一、环境准备:Linux...完成以上所有配置后,即可启动Hadoop伪分布式集群。具体启动命令可参考Hadoop官方文档或相关教程。至此,Hadoop 2.4.1伪分布式环境搭建完毕。

    hadoop2.4.1伪分布式搭建.txt

    在进行Hadoop 2.4.1伪分布式的搭建之前,首先需要确保Linux环境的正确配置。以下将详细介绍所需的步骤。 ##### 1.1 VMware网络配置 - **开启VMware的NAT模式或桥接模式:** 进入`VMware`的网络设置界面,通过`...

    Hadoop2.2部署文档

    《Hadoop2.2部署指南》 在当前的数字化时代,大数据处理已成为企业的重要需求,而Hadoop作为开源的大数据处理框架,因其高效、可扩展的特性,深受业界青睐。本指南将详细介绍如何在Red Hat Enterprise Linux Server...

    hadoop2.2在window7 sp1 32位系统中运行所需要的文件

    5. `hadoop`、`hdfs`:这两个可能是配置文件或脚本,用于配置Hadoop的HDFS和整个集群。 6. `libwinutils.lib`:这是一个静态链接库文件,包含Windows下运行Hadoop所需的函数库,供编译链接时使用。 在配置Hadoop ...

    HADOOP2.2安装部署手册

    Hadoop 2.2安装部署手册是一份详细的指南,用于在集群上安装和配置Hadoop版本2.2以及相关生态系统组件。根据提供的文件信息,可以总结出以下知识点: 1. 集群规划与主机名修改: - 在集群规划时,首先需要修改各...

    Hadoop-2.6.0分布式部署参考手册

    ### Hadoop-2.6.0 分布式部署详解 #### 一、环境说明与配置需求 ##### 1.1 安装环境说明 ...以上内容为Hadoop-2.6.0分布式部署的基本流程与关键配置点,希望对正在学习或实践Hadoop集群部署的朋友有所帮助。

    hadoop 集群搭建

    ### Hadoop 2.2 完全分布式环境搭建详解 #### 一、概述 Hadoop 是一个能够对大量数据进行分布式处理的软件框架...通过上述步骤,你可以成功搭建出一个稳定可靠的 Hadoop 2.2 分布式集群,为大数据处理打下坚实的基础。

    hadoop2.x集群搭建(1.0).txt

    ### Hadoop 2.x 集群搭建详细指南 #### 一、概述 Hadoop 2.x 是一个基于分布式计算框架的重要版本,它在Hadoop 1.x的基础上进行了大幅度的改进,引入了HDFS High Availability (HA) 和 YARN (Yet Another Resource...

    hadoop-common-2.2.0-bin-master(包含windows端开发Hadoop2.2需要的winutils.exe)

    Hadoop是Apache软件基金会开发的一个开源分布式计算框架,它的核心组件包括HDFS(Hadoop Distributed File System)和MapReduce。这个压缩包“hadoop-common-2.2.0-bin-master”是Hadoop 2.2.0版本的公共库二进制...

    HADOOP快速入门及搭建集群环境

    HADOOP快速入门及搭建集群环境 HADOOP是一种分布式计算技术,旨在处理大规模数据集,能够将大规模数据处理工作分配到多个计算机节点上,从而提高数据处理速度和效率。本资源旨在指导读者快速入门HADOOP,并搭建集群...

    Hadoop伪分布式及生态圈组件搭建新手指导文档

    以上是 Hadoop 伪分布式环境以及 Hbase 的搭建过程,这个过程对初学者来说至关重要,因为它提供了 Hadoop 生态圈的基本运行环境。Hadoop 是一个开源的大数据处理框架,主要由 HDFS(Hadoop Distributed File System...

    Hadoop集群搭建总结

    ### Hadoop集群搭建总结 #### 一、Hadoop概述与应用场景 Hadoop是一个由Apache基金会维护的开源分布式计算框架,其主要目标是处理大规模数据集的存储与计算问题。通过Hadoop,用户能够轻松地在分布式环境中开发和...

    作业二-Mac版Hadoop三节点集群搭建.docx

    【标题】: "Mac版Hadoop三节点集群搭建" 【描述】: 在Mac环境下搭建Hadoop三节点集群是一项常见的IT任务,特别是在大数据处理和分布式计算的学习与实践中。Hadoop是Apache基金会开发的一个开源项目,主要负责分布式...

    基于Linux的Hadoop集群搭建的探索与实现.docx

    【基于Linux的Hadoop集群搭建的探索与实现】 在当今数据爆炸的时代,大数据处理和分析已经成为信息技术领域的核心议题。Hadoop作为开源的大数据处理框架,以其分布式计算能力、高容错性和可扩展性赢得了广大用户的...

    阿里云大数据Hadoop集群搭建全网最新教程

    ### 阿里云大数据Hadoop集群搭建全网最新教程 #### 一、Hadoop运行环境搭建 在构建Hadoop集群之前,首先需要确保Linux环境已经准备好,并且能够支持Hadoop的正常运行。 ##### 1.1 配置免密登录 在分布式计算环境...

Global site tag (gtag.js) - Google Analytics