Mapreduce Tarball
你需要有MapReduce tarball,如果没有的话那么你需要从源文件中创建一个,执行命令如下:
$ mvn clean install -DskipTests $ cd hadoop-mapreduce-project $ mvn clean install assembly:assembly -Pnative
注意:你需要安装protoc 2.5.0 。
如果需要忽略本地化编译那么你可以去掉在maven中去掉 -Pnative参数,Tarball会在target/ 目录中生成。
设置环境变量
假定你已经安装了hadoop-common/hadoop-hdfs,并且已经设置了$HADOOP_COMMON_HOME/$HADOOP_HDFS_HOME,解压hadoop mapreduce tarball 并设置环境变量$HADOOP_MAPRED_HOME到解压的目录中去,同时也设置 $HADOOP_YARN_HOME 环境变量。
注意:下面的操作假定你的hdfs已经开始运行。
设置配置文件
启动ResourceManager 和 NodeManager之前你需要更新配置文件。假定$HADOOP_CONF_DIR是你的配置文件所在的目录并且已经为hdfs和 core-site.xml做了配置。那么有2个文件你需要去设置 mapred-site.xml 和 yarn-site.xml
mapred-site.xml配置
在 mapred-site.xml中加入如下配置:
<property> <name>mapreduce.cluster.temp.dir</name> <value></value> <description>No description</description> <final>true</final> </property> <property> <name>mapreduce.cluster.local.dir</name> <value></value> <description>No description</description> <final>true</final> </property>
yarn-site.xml配置
在你的yarn-site.xml中加入如下信息:
<property> <name>yarn.resourcemanager.resource-tracker.address</name> <value>host:port</value> <description>host is the hostname of the resource manager and port is the port on which the NodeManagers contact the Resource Manager. </description> </property> <property> <name>yarn.resourcemanager.scheduler.address</name> <value>host:port</value> <description>host is the hostname of the resourcemanager and port is the port on which the Applications in the cluster talk to the Resource Manager. </description> </property> <property> <name>yarn.resourcemanager.scheduler.class</name> <value>org.apache.hadoop.yarn.server.resourcemanager.scheduler.capacity.CapacityScheduler</value> <description>In case you do not want to use the default scheduler</description> </property> <property> <name>yarn.resourcemanager.address</name> <value>host:port</value> <description>the host is the hostname of the ResourceManager and the port is the port on which the clients can talk to the Resource Manager. </description> </property> <property> <name>yarn.nodemanager.local-dirs</name> <value></value> <description>the local directories used by the nodemanager</description> </property> <property> <name>yarn.nodemanager.address</name> <value>0.0.0.0:port</value> <description>the nodemanagers bind to this port</description> </property> <property> <name>yarn.nodemanager.resource.memory-mb</name> <value>10240</value> <description>the amount of memory on the NodeManager in GB</description> </property> <property> <name>yarn.nodemanager.remote-app-log-dir</name> <value>/app-logs</value> <description>directory on hdfs where the application logs are moved to </description> </property> <property> <name>yarn.nodemanager.log-dirs</name> <value></value> <description>the directories used by Nodemanagers as log directories</description> </property> <property> <name>yarn.nodemanager.aux-services</name> <value>mapreduce_shuffle</value> <description>shuffle service that needs to be set for Map Reduce to run </description> </property>
配置capacity-scheduler.xml文件
确保root queues已经在capacity-scheduler.xml中设置:
<property> <name>yarn.scheduler.capacity.root.queues</name> <value>unfunded,default</value> </property> <property> <name>yarn.scheduler.capacity.root.capacity</name> <value>100</value> </property> <property> <name>yarn.scheduler.capacity.root.unfunded.capacity</name> <value>50</value> </property> <property> <name>yarn.scheduler.capacity.root.default.capacity</name> <value>50</value> </property>
运行守护进程
假定你的环境变量$HADOOP_COMMON_HOME, $HADOOP_HDFS_HOME, $HADOO_MAPRED_HOME, $HADOOP_YARN_HOME,$JAVA_HOME and $HADOOP_CONF_DIR都已经配置好了。跟配置 $HADOOP_CONF_DIR一样配置好$YARN_CONF_DIR。
执行如下命令启动ResourceManager 和NodeManager :
$ cd $HADOOP_MAPRED_HOME $ sbin/yarn-daemon.sh start resourcemanager $ sbin/yarn-daemon.sh start nodemanager
你可以执行randomwriter 来查看是否启动:
$ $HADOOP_COMMON_HOME/bin/hadoop jar hadoop-examples.jar randomwriter out
相关推荐
资源名称:CentOS 6.5 x64下安装19实体节点Hadoop 2.2.0集群配置指南内容简介: CentOS 6.5 x64下安装19实体节点Hadoop 2.2.0集群配置指南主要讲述的是CentOS 6.5 x64下安装19实体节点Hadoop 2.2.0集群配置指南;...
Hadoop 2.2.0 是 Apache Hadoop 的一个关键版本,它包含了众多改进和优化,使得这个分布式计算框架在处理大数据集时更加高效和稳定。在这个配置文件中,我们将会探讨Hadoop 2.2.0 在4台CentOS 6.4系统上运行所需的...
1. 分布式文件系统(HDFS):Hadoop的核心之一是Hadoop Distributed File System(HDFS),它将大文件分割成多个数据块,并在集群的不同节点上复制和存储,确保高可用性和容错性。Hadoop 2.2.0对HDFS进行了增强,如...
总结来说,安装64位的Hadoop 2.2.0涉及下载源代码、配置编译环境、编译源代码、安装和配置Hadoop以及启动服务。这个过程对于理解和掌握Hadoop的工作原理非常有帮助,同时也能确保在64位Linux系统上顺利运行大数据...
在Windows环境下,使用Eclipse进行Hadoop 2.2.0分布式集群的调试是一项重要的技能,这可以帮助开发者更好地理解和优化Hadoop程序。以下是一些关键的知识点,将指导你完成这个过程。 首先,Hadoop是一个开源的分布式...
总结来说,安装Hadoop 2.2.0的关键步骤包括:下载软件包、配置集群环境、设置SSH无密码登录、安装JDK并配置环境变量、调整Hadoop配置文件,以及启动服务。遵循这些步骤,可以顺利地在多台机器上构建一个基本的Hadoop...
《Hadoop2.2.0安装配置及实例教程入门宝典》 在大数据处理领域,Hadoop是一个不可或缺的工具,其分布式存储和计算能力为企业级数据处理提供了强大的支持。本教程将带你逐步走进Hadoop的世界,从零开始,教你如何在...
例如,ZooKeeper是一个分布式的,开放源码的分布式应用程序协调服务,它是集群的管理者,监视着集群中各个节点的状态根据节点提交的反馈进行下一步合理操作。 6. **IO库**:如compress-codecs提供了各种压缩算法的...
Hadoop是Apache软件基金会的一个项目,它的核心组件包括HDFS(Hadoop Distributed File System)和MapReduce,这两者构成了大数据处理的基础。 **Hadoop Distributed File System (HDFS)** HDFS 是一种分布式文件...
Hadoop 2.2.0 是 Apache Hadoop 的一个重要版本,它在 Hadoop 的发展历程中扮演了关键角色,为大数据处理提供了稳定且高效的框架。这个版本引入了许多改进和新特性,使得分布式存储和计算能力得到进一步提升。在这个...
在本文中,我们将深入探讨如何在64位Linux CentOS 6.5系统上编译和安装Hadoop-2.2.0。Hadoop是一个开源的分布式系统基础架构,旨在简化大规模数据处理和存储。它的核心组件包括HDFS(Hadoop Distributed File System...
Hadoop2.2.0是Apache官方稳定版,可以从官方网站或镜像站点下载。下载完成后,将其上传到Linux服务器并解压。在安装前,确保所有服务器都已安装了JDK,并设置了`JAVA_HOME`环境变量。例如,可以将JDK安装在`/usr/...
Hadoop是Apache软件基金会开发的一个开源分布式计算框架,它的核心设计是处理和存储大量数据,尤其适合大数据分析。Hadoop 2.2.0版本是一个重要的里程碑,它引入了诸多性能优化和功能改进,旨在提高系统的稳定性和...
这里记录了Hadoop2.2.0版本多节点集群安装过程,并进行了基本配置、启动运行和测试了一个单词统计例子。 环境准备 在开始安装Hadoop之前,需要准备好虚拟机环境。这里使用了VMware Player 4.0.3和Ubuntu 12.04-64...
在本文中,我们将深入探讨如何在Ubuntu 12.04 64位服务器上安装和配置Hadoop 2.2.0单节点环境。这个过程由雨水在2013年10月24日记录并发布在CSDN博客上。以下是详细的步骤: 首先,确保你的环境准备就绪。这包括在...
Hadoop是Apache软件基金会开发的一个开源分布式计算框架,它的核心组件包括HDFS(Hadoop Distributed File System)和MapReduce。这个压缩包“hadoop-common-2.2.0-bin-master”是Hadoop 2.2.0版本的公共库二进制...
Hadoop是Apache软件基金会开发的一个开源分布式计算框架,它的核心设计是基于Google的MapReduce编程模型和GFS(Google File System)分布式文件系统的概念。Hadoop-2.2.0是这个项目的一个重要版本,它在Hadoop的发展...
软件方面,需要安装jdk-7u55-linux-x64.rpm、apache-maven-3.1.1-bin.tar、hadoop-2.2.0-src.tar.gz、protobuf-2.5.0.tar.gz、zookeeper-3.4.5.tar.gz和hbase-0.96.2-hadoop2-bin.tar.gz等软件。 Hadoop2.2安装和...
本文将详细讲解如何搭建一个Hadoop集群,包括虚拟机安装、环境配置、Hadoop和Zookeeper的安装及集群验证。以下是对每个步骤的详细说明: 一、虚拟机安装与配置 在搭建Hadoop集群之前,首先需要准备多台虚拟机。可以...