1 网络环境
1.1 修改hosts文件
设置/etc/hosts文件(每台机器上都要设置),添加如下内容
192.168.1.101 testServer
namenode与datanode的/etc/hosts内容都必须是ip位址与host name的对应,不能使用127.0.0.1代替本机的ip地址,否则hadoop使用hostname找ip时,会以"127.0.0.1"作为ip位址。
1.2 设置ssh无密码访问
master和所有的slave之间,需要实现双向ssh无密码访问(slave和slave之间可以不用实现)。
cd ~
ssh-keygen -t rsa,一路回车
cd .ssh/
cp id_rsa.pub authorized_keys // 本地机器也需要
ssh localhost //确保本地可以无密码登陆
// 拷贝authorized_keys到其他需要无密登陆的机器上
scp authorized_keys hadoop@otherHost:~/.ssh
….
如果不能无密登陆,关闭SELinux试试:
暂时关闭(重启后恢复) :
setenforce 0
永久关闭(需要重启):
vi /etc/selinux/config
SELINUX=disabled
2 hadoop安装
2.1 安装文件
上传安装文件到目录:/export/home/tools/soft/hadoop-2.0.0-cdh4.2.1.tar.gz
cd ~
tar xvzf /export/home/tools/soft/hadoop-2.0.0-cdh4.2.1.tar.gz -C ./
2.2 初始化
cd ~/hadoop-2.0.0-cdh4.2.1/bin
./config_hadoop.sh
. ~/.bash_profile
2.3 设置环境变量
cd ~/hadoop-2.0.0-cdh4.2.1/etc/hadoop
修改export JAVA_HOME=/usr/java/jdk1.6.0_35 为jdk安装目录
2.4 修改mapred-site.xml
在${HADOOP_HOME}/etc/hadoop/下,将mapred-site.xml.templat重命名成mapred-site.xml,并添加以下内容:
<configuration>
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
</configuration>
2.5 修改core-site.xml
vi $HADOOP_HOME/etc/hadoop下的配置文件core-site.xml,添加:
(注:红色字体为需考虑修改的部分)
<configuration>
<property>
<name>hadoop.tmp.dir</name>
<value>/export/home/hadoop/hadoop-tmp</value>
<description>A base for other temporary directories.</description>
</property>
<property>
<name>fs.defaultFS</name>
<value>hdfs://
yarn</value>
<final>true</final>
<description>缺省文件服务的协议和NS逻辑名称,和hdfs-site里的对应 .此配置替代了1.0里的fs.default.name</description>
</property>
<property>
<name>io.file.buffer.size</name>
<value>262144</value>
<description>Size of read/write buffer used in SequenceFiles.256k</description>
</property>
<property>
<name>io.native.lib.available</name>
<value>true</value>
</property>
</configuration>
2.6 修改yarn-site.xml
在${HADOOP_HOME}/etc/hadoop/中,修改yarn-site.xml
增加
<configuration>
<!-- Site specific YARN configuration properties -->
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce.shuffle</value>
</property>
<property>
<name>yarn.nodemanager.aux-services.mapreduce.shuffle.class</name>
<value>org.apache.hadoop.mapred.ShuffleHandler</value>
</property>
</configuration>
2.7 修改hdfs-site.xml
<configuration>
<property>
<name>dfs.replication</name>
<value>1</value>
<description>replication number,set to 2</description>
</property>
<property>
<name>dfs.namenode.name.dir</name>
<value>/export/home/hadoop/data/namenode</value>
<final>true</final>
</property>
<property>
<name>dfs.datanode.data.dir</name>
<value>export/home/hadoop/data/hdfs/</value>
</property>
<property>
<name>dfs.permissions</name>
<value>false</value>
</property>
<property>
<name>dfs.block.size</name>
<value>134217728</value>
<description>HDFS blocksize of 128MB for large file-systems.used for on-line</description>
</property>
</configuration>
2.8 修改slaves
修改$HADOOP_HOME/etc/hadoop下的配置文件slaves,添加
(注意:slaves必须是hostname,如果填IP,会出错)
testServer
2.9 启动HDFS
可以使用以下命令分别启动NameNode和DataNode:
bin/hadoop namenode -format
sbin/hadoop-daemon.sh start namenode
sbin/hadoop-daemon.sh start datanode(如果有多个datanode,需使用hadoop-daemons.sh)
或者一次启动:sbin/ start-dfs.sh
2.10 启动YARN
可以使用以下命令分别启动ResourceManager和NodeManager:
sbin/yarn-daemon.sh start resourcemanager
sbin/yarn-daemon.sh start nodemanager(如果有多个datanode,需使用yarn-daemons.sh)
或者一次启动过:sbin/start-yarn.sh
2.11 运行程序
进入/export/home/hadoop/hadoop-2.0.0-cdh4.2.1/share/hadoop/mapreduce
hadoop jar hadoop-mapreduce-examples-2.0.0-cdh4.2.1.jar randomwriter out
3 安装遇到的问题
3.1 执行bin/hadoop namenode –format 的时候报异常
2014-06-26 21:27:16,306 FATAL namenode.NameNode (NameNode.java:main(1209)) - Exception in namenode join
java.lang.IllegalArgumentException: URI has an authority component
at java.io.File.<init>(File.java:368)
at org.apache.hadoop.hdfs.server.namenode.NNStorage.getStorageDirectory(NNStorage.java:328)
at org.apache.hadoop.hdfs.server.namenode.FSEditLog.initJournals(FSEditLog.java:221)
at org.apache.hadoop.hdfs.server.namenode.FSEditLog.initJournalsForWrite(FSEditLog.java:193)
at org.apache.hadoop.hdfs.server.namenode.NameNode.format(NameNode.java:746)
at org.apache.hadoop.hdfs.server.namenode.NameNode.createNameNode(NameNode.java:1100)
at org.apache.hadoop.hdfs.server.namenode.NameNode.main(NameNode.java:1205)
问题原因:slaves文件中配置的是ip,改为hostname即可。
分享到:
相关推荐
### Hadoop安装教程:单机与伪分布式配置详解 #### 一、引言 Hadoop是一种开源的大数据处理框架,广泛应用于数据存储和处理场景。本文档将详细介绍如何在Ubuntu 14.04环境下安装配置Hadoop 2.6.0版本,包括单机模式...
至此,Hadoop单机版已经成功安装并运行。通过这个过程,你可以深入了解Hadoop的基本架构和操作,为进一步学习Hadoop分布式集群打下基础。在实际生产环境中,Hadoop通常部署在多台机器上,以实现更高的可用性和性能。...
在本教程中,我们将深入探讨如何在CentOS7操作系统上部署和安装Hadoop 2.7.3的单机版本,以及如何进一步搭建HBase单机版和Pinpoint监控工具,与SpringBoot应用进行整合。这是一个针对初学者的指南,旨在帮助理解...
### Hadoop单机模式安装详解 #### 一、前言 Hadoop是一个开源软件框架,用于分布式存储和处理大规模数据集。它最初由Apache软件基金会开发,并被广泛应用于大数据处理领域。对于初学者来说,了解如何在单机模式下...
在单机版(Standalone)安装模式下,Hadoop主要用于学习和测试环境,不涉及分布式集群,所有服务都在一台机器上运行。下面将详细介绍Hadoop单机版的安装步骤及相关知识点。 1. **系统要求** 在开始安装前,确保你...
### Hadoop单机安装与集群安装相关知识点 #### 一、文档概述 本文档主要针对Hadoop的安装和配置过程进行了详细的说明,旨在简化Hadoop的部署流程。它覆盖了Hadoop单机安装以及集群安装的过程,并且适用于CentOS 5/...
《Hadoop权威指南》是Hadoop领域的经典著作,第四版更是涵盖了Hadoop生态系统中的最新发展和技术。这本书深入浅出地介绍了分布式计算的概念,以及如何利用Hadoop进行大规模数据处理。以下将详细介绍其中的关键知识点...
首先,安装单机Hadoop系统分为在Linux操作系统下直接安装以及在Windows下安装Linux虚拟机两种方式。在Linux环境下,通常需要安装SSH和Java。SSH(Secure Shell)是远程管理Hadoop节点以及节点间安全共享访问的主要...
这份手册可能涵盖单机模式、伪分布式模式和完全分布式模式的安装,以及如何进行故障排查。 总的来说,Linux上的Hadoop集群安装涉及到多步骤的配置和调试,需要对Linux系统和Java有一定了解。通过这些文档,用户可以...
1. Hadoop安装与配置:包括单机模式、伪分布式模式和完全分布式模式的搭建,以及集群的监控和故障排查技巧。 2. HDFS详解:深入理解HDFS的数据存储模型,块的概念,副本策略,以及NameNode和DataNode的角色与工作...
在单机版Hadoop的伪分布式配置中,这两部分都会在同一台机器上运行。 配置步骤通常包括以下几个关键点: 1. **安装Java环境**:Hadoop依赖Java运行,所以你需要先确保系统已经安装了JDK,并且`JAVA_HOME`环境变量...
3. **Hadoop安装与配置**:涵盖单机模式、伪分布式模式和完全分布式模式的安装步骤,以及集群配置、安全性设置和故障排查技巧。 4. **MapReduce编程**:理解Map函数和Reduce函数的实现,以及Combiner、Partitioner...
1. **环境准备**:确保你的系统已经安装了Java环境,Hadoop要求JDK版本至少为1.7。 2. **下载Hadoop**:从官方网站或者镜像站点下载Hadoop 2.6.0的二进制包,并解压到一个合适的目录,例如`/usr/local/hadoop`。 3...
虽然在本地单机安装无需多节点配置,但了解这些概念对于未来搭建更大规模的集群是有益的。 在本地环境中,你可能还需要配置伪分布式模式,这意味着在单个节点上模拟多节点集群的行为。这通常通过在`hadoop-env.sh`...
### Linux下载、安装、JDK配置、Hadoop安装相关知识点 #### 一、Linux环境准备与安装 **1.1 Linux版本选择** - **CentOS 6.5**:适用于本教程,是一款稳定且广受支持的企业级操作系统。 **1.2 下载Linux** - **...
以上就是Hadoop的安装配置过程,这只是一个基础的单机环境配置。在实际生产环境中,你可能需要配置更复杂的集群环境,例如Hadoop的高可用性(HA)、安全认证(如Kerberos)以及资源调度优化等。此外,随着Hadoop生态...
Hadoop的安装分为几个主要步骤,包括创建Hadoop用户、设置SSH登录权限、安装Java环境以及配置Hadoop。 1. **创建Hadoop用户**: 在Linux环境中,通常会创建一个名为`hadoop`的用户,以专门用于Hadoop的管理和运行...
【Hadoop安装教程:单机与伪分布式配置详解】 在大数据处理领域,Hadoop是一个广泛使用的开源框架,它允许在廉价硬件集群上处理大规模数据。本文将指导您如何在Ubuntu 14.04 64位系统上安装Hadoop 2.6.0,无论是...
在测试环境下,可以通过一台Linux机器搭建一个单机的Hadoop环境,适用于学习和实验。生产环境的搭建则涉及到多个节点的多机配置,这需要对Hadoop集群进行更为复杂和细致的配置。 六、总结 安装部署Hadoop 2.0涉及多...