搭建环境准备:JDK1.6,SSH免密码通信
系统:CentOS 6.3
集群配置:NameNode和ResourceManager在一台服务器上,三个数据节点
搭建用户:YARN
Hadoop2.2下载地址:http://www.apache.org/dyn/closer.cgi/hadoop/common/
步骤一:上传Hadoop 2.2 并解压到/export/yarn/hadoop-2.2.0
外层的启动脚本在sbin目录
内层的被调用脚本在bin目录
Native的so文件都在lib/native目录
配置程序文件都放置在libexec
配置文件都在etc目录,对应以前版本的conf目录
所有的jar包都在share/hadoop目录下面
步骤二:配置环境变量
在~/.bashrc文件中添加以下配置:
export JAVA_HOME=/export/servers/jdk1.6.0_25/ export HADOOP_DEV_HOME=/export/yarn/hadoop-2.2.0 export HADOOP_MAPARED_HOME=${HADOOP_DEV_HOME} export HADOOP_COMMON_HOME=${HADOOP_DEV_HOME} export HADOOP_HDFS_HOME=${HADOOP_DEV_HOME} export YARN_HOME=${HADOOP_DEV_HOME} export HADOOP_CONF_DIR=${HADOOP_DEV_HOME}/etc/hadoop export HDFS_CONF_DIR=${HADOOP_DEV_HOME}/etc/hadoop export YARN_CONF_DIR=${HADOOP_DEV_HOME}/etc/hadoop export PATH=$PATH:$HADOOP_DEV_HOME/bin:$JAVA_HOME/bin:$HADOOP_DEV_HOME/sbin
配置完成后,执行source ~/.bashrc命令
步骤三:core-site.xml hdfs-site.xml mapred-site.xml yarn-site.xml配置
- Core-site.xml配置
<configuration > <property> <name>fs.defaultFS</name> <value>hdfs://master1:9101</value> <description></description> </property> <property> <name>hadoop.tmp.dir</name> <value>/export/yarn/hadoop-log/</value> <description>tmp临时目录</description> </property> <property> <name>io.compression.codecs</name> <value>com.hadoop.compression.lzo.LzoCodec,com.hadoop.compression.lzo.LzopCodec</value> <description>压缩编码,这里配置了LZO</description> </property> <property> <name>io.compression.codec.lzo.class</name> <value>com.hadoop.compression.lzo.LzoCodec</value> <description>LZO对应类</description> </property> <property> <name>io.native.lib.available</name> <value>true</value> <description>是否启用本地native库</description> </property> </configuration>
- Hdfs-site.xml
<configuration> <property> <name>dfs.namenode.name.dir</name> <value>/export/yarn/hadoop-log/nd</value> </property> <property> <name>dfs.datanode.data.dir</name> <value>/export/yarn/hadoop-log/dd</value> </property> <property> <name>dfs.namenode.http-address</name> <value>0.0.0.0:60176</value> <description>namenode http 地址</description> </property> <property> <name>dfs.datanode.address</name> <value>0.0.0.0:60116</value> </property> <property> <name>dfs.datanode.ipc.address</name> <value>0.0.0.0:60126</value> </property> <property> <name>dfs.datanode.http.address</name> <value>0.0.0.0:60176</value> </property> <property> <name>dfs.secondary.http.address</name> <value>0.0.0.0:60196</value> </property> </configuration>
- Mapred-site.xml
<configuration> <property> <name>mapreduce.framework.name</name> <value>yarn</value> </property> </configuration>
- yarn-site.xml
<configuration> <!-- Site specific YARN configuration properties --> <property> <name>yarn.resourcemanager.address</name> <value>master1:8032</value> </property> <property> <name>yarn.resourcemanager.scheduler.address</name> <value>master1:8030</value> </property> <property> <name>yarn.resourcemanager.webapp.address</name> <value>master1:8088</value> </property> <property> <name>yarn.resourcemanager.resource-tracker.address</name> <value>master1:8031</value> </property> <property> <name>yarn.nodemanager.aux-services</name> <value>mapreduce_shuffle</value> </property> <property> <name>yarn.resourcemanager.scheduler.class</name> <value>org.apache.hadoop.yarn.server.resourcemanager.scheduler.fair.FairScheduler</value> </property> <property> <name>yarn.scheduler.fair.allocation.file</name> <value>fair-scheduler.xml</value> </property> </configuration>
注:这里配置了Hadoop 2.2 FairScheduler调度器
步骤四:slaves配置
将三个数据节点配置到slaves中
步骤五:将配置好的Hadoop 2.2 分发同步到各个数据节点
步骤六:格式化NameNode
执行命令:hdfs namenode –format
或者 hadoop namenode –format
步骤七:启动hdfs和yarn
启动Hdfs: start-dfs.sh
启动yarn: start-yarn.sh
或者可以执行start-all.sh一起启动hdfs和yarn
步骤八:测试
Hdfs测试:
向hdfs中上传文件:hdfs dfs –put abc /input
查看hdfs文件目录:hdfs dfs –ls /
Yarn测试:
运行WordCount测试程序:
hadoop jar /export/yarn/hadoop-2.2.0/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.2.0.jar wordcount /input /out
http://blog.csdn.net/uf_fantn/article/details/16989183
相关推荐
### Hadoop 3.0 分布式集群搭建详解 #### 一、概述 Hadoop 是一个能够对大量数据进行分布式处理的软件框架。Hadoop 的核心是 HDFS 和 MapReduce,其中 HDFS 用于存储数据,MapReduce 则提供了一个大规模数据集的...
我们将覆盖集群搭建的基础知识,包括环境准备、配置步骤、启动与验证等环节。 首先,了解Hadoop的架构至关重要。Hadoop由两个主要组件构成:Hadoop Distributed File System (HDFS) 和 MapReduce。HDFS是分布式文件...
### Hadoop 2.4.1 伪分布式环境搭建详细步骤 #### 一、环境准备:Linux...完成以上所有配置后,即可启动Hadoop伪分布式集群。具体启动命令可参考Hadoop官方文档或相关教程。至此,Hadoop 2.4.1伪分布式环境搭建完毕。
在进行Hadoop 2.4.1伪分布式的搭建之前,首先需要确保Linux环境的正确配置。以下将详细介绍所需的步骤。 ##### 1.1 VMware网络配置 - **开启VMware的NAT模式或桥接模式:** 进入`VMware`的网络设置界面,通过`...
《Hadoop2.2部署指南》 在当前的数字化时代,大数据处理已成为企业的重要需求,而Hadoop作为开源的大数据处理框架,因其高效、可扩展的特性,深受业界青睐。本指南将详细介绍如何在Red Hat Enterprise Linux Server...
5. `hadoop`、`hdfs`:这两个可能是配置文件或脚本,用于配置Hadoop的HDFS和整个集群。 6. `libwinutils.lib`:这是一个静态链接库文件,包含Windows下运行Hadoop所需的函数库,供编译链接时使用。 在配置Hadoop ...
Hadoop 2.2安装部署手册是一份详细的指南,用于在集群上安装和配置Hadoop版本2.2以及相关生态系统组件。根据提供的文件信息,可以总结出以下知识点: 1. 集群规划与主机名修改: - 在集群规划时,首先需要修改各...
### Hadoop-2.6.0 分布式部署详解 #### 一、环境说明与配置需求 ##### 1.1 安装环境说明 ...以上内容为Hadoop-2.6.0分布式部署的基本流程与关键配置点,希望对正在学习或实践Hadoop集群部署的朋友有所帮助。
### Hadoop 2.2 完全分布式环境搭建详解 #### 一、概述 Hadoop 是一个能够对大量数据进行分布式处理的软件框架...通过上述步骤,你可以成功搭建出一个稳定可靠的 Hadoop 2.2 分布式集群,为大数据处理打下坚实的基础。
### Hadoop 2.x 集群搭建详细指南 #### 一、概述 Hadoop 2.x 是一个基于分布式计算框架的重要版本,它在Hadoop 1.x的基础上进行了大幅度的改进,引入了HDFS High Availability (HA) 和 YARN (Yet Another Resource...
Hadoop是Apache软件基金会开发的一个开源分布式计算框架,它的核心组件包括HDFS(Hadoop Distributed File System)和MapReduce。这个压缩包“hadoop-common-2.2.0-bin-master”是Hadoop 2.2.0版本的公共库二进制...
HADOOP快速入门及搭建集群环境 HADOOP是一种分布式计算技术,旨在处理大规模数据集,能够将大规模数据处理工作分配到多个计算机节点上,从而提高数据处理速度和效率。本资源旨在指导读者快速入门HADOOP,并搭建集群...
以上是 Hadoop 伪分布式环境以及 Hbase 的搭建过程,这个过程对初学者来说至关重要,因为它提供了 Hadoop 生态圈的基本运行环境。Hadoop 是一个开源的大数据处理框架,主要由 HDFS(Hadoop Distributed File System...
本文将详细介绍如何在单机上搭建Hadoop伪分布式环境,并通过运行经典的WordCount示例来理解Hadoop的基本工作流程。 #### 二、Hadoop伪分布式环境简介 ##### 2.1 Hadoop分布式组件概述 Hadoop主要由两大部分构成:...
### Hadoop集群搭建总结 #### 一、Hadoop概述与应用场景 Hadoop是一个由Apache基金会维护的开源分布式计算框架,其主要目标是处理大规模数据集的存储与计算问题。通过Hadoop,用户能够轻松地在分布式环境中开发和...
【标题】: "Mac版Hadoop三节点集群搭建" 【描述】: 在Mac环境下搭建Hadoop三节点集群是一项常见的IT任务,特别是在大数据处理和分布式计算的学习与实践中。Hadoop是Apache基金会开发的一个开源项目,主要负责分布式...
【基于Linux的Hadoop集群搭建的探索与实现】 在当今数据爆炸的时代,大数据处理和分析已经成为信息技术领域的核心议题。Hadoop作为开源的大数据处理框架,以其分布式计算能力、高容错性和可扩展性赢得了广大用户的...
### 阿里云大数据Hadoop集群搭建全网最新教程 #### 一、Hadoop运行环境搭建 在构建Hadoop集群之前,首先需要确保Linux环境已经准备好,并且能够支持Hadoop的正常运行。 ##### 1.1 配置免密登录 在分布式计算环境...