网络上充斥着大量Hadoop1的教程,版本老旧,Hadoop2的中文资料相对较少,本教程的宗旨在于从Hadoop2出发,结合作者在实际工作中的经验,提供一套最新版本的Hadoop2相关教程。
为什么是Hadoop2.2.0,而不是Hadoop2.4.0
本文写作时,Hadoop的最新版本已经是2.4.0,但是最新版本的Hbase0.98.1仅支持到Hadoop2.2.0,且Hadoop2.2.0已经相对稳定,所以我们依然采用2.2.0版本。
一. Hadoop安装(伪分布式)
1. 操作系统
Hadoop一定要运行在Linux系统环境下,网上有windows下模拟linux环境部署的教程,放弃这个吧,莫名其妙的问题多如牛毛。
2. 安装JDK
1> 下载并解压JDK
我的目录为:/home/apple/jdk1.8
2> 配置环境变量
打开/etc/profile,添加以下内容:
export JAVA_HOME=/home/apple/jdk1.8
export PATH=$PATH:$JAVA_HOME/bin
export CLASSPATH=.:$JAVA_HOME/lib/tools.jar:$JAVA_HOME/lib/dt.jar
执行source /etc/profile ,使更改后的profile生效。
执行以下命令,赋予JDK运行的权限:
chmod 777 /home/apple/jdk1.8/bin/*
chmod 777 /home/apple/jdk1.8/lib/*
3> 检测JDK环境
执行 java –version ,查看结果,如看到版本信息,则表明配置成功。
3. 安装SSH
1> 检验ssh是否已经安装
Ubuntu系统可以通过如下命令来查看ssh是否已经安装:
netstat -an| grep 22
如果已安装,可跳过第二步。
2> 安装ssh
Ubuntu系统可以通过如下命令来安装ssh:
sudo apt-get install ssh
3> 配置ssh免密码登录
通过如下命令来配置ssh免密码登录:
ssh-keygen -t dsa -P '' -f ~/.ssh/id_dsa
cat ~/.ssh/id_dsa.pub >> ~/.ssh/authorized_keys
输入如下命令验证免密码登录是否成功:
ssh localhost
成功登陆,可显示welcome信息。
4. 安装Hadoop
1> 下载并解压
我的目录为:/home/apple/hadoop-2.2.0
2> 配置环境变量
打开/etc/profile,添加以下内容:
export HADOOP_HOME=/home/apple/hadoop-2.2.0
export HADOOP_MAPRED_HOME=$HADOOP_HOME
export HADOOP_COMMON_HOME=$HADOOP_HOME
export HADOOP_HDFS_HOME=$HADOOP_HOME
export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native
export HADOOP_OPTS="-Djava.library.path=$HADOOP_HOME/lib/native"
export YARN_HOME=$HADOOP_HOME
export PATH=$PATH:$JAVA_HOME/bin:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
执行source /etc/profile ,使更改后的profile生效。
执行以下命令,赋予Hadoop运行的权限:
chmod 777 /home/apple/hadoop-2.2.0/bin/*
chmod 777 /home/apple/hadoop-2.2.0/sbin/*
3> 配置Hadoop
修改$HADOOP_HOME/etc/hadoop目录下的配置文件。
core-site.xml添加以下内容:
<property>
<name>fs.default.name</name>
<value>hdfs://localhost:9000</value>
</property>
<property>
<name>hadoop.native.lib</name>
<value>true</value>
</property>
hadoop-env.sh修改以下内容:
export JAVA_HOME=/home/apple/jdk1.8
hdfs-site.xml添加以下内容:
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
<property>
<name>dfs.namenode.name.dir</name>
<value>file:/home/apple/hadoop-2.2.0/hdfs/namenode</value>
</property>
<property>
<name>dfs.datanode.data.dir</name>
<value>file:/home/apple/hadoop-2.2.0/hdfs/datanode</value>
</property>
这里的两个地址,是你namenode和datanode两个节点上,希望hdfs文件存储的位置。
mapred-site.xml.template改为mapred-site.xml,添加以下内容:
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
yarn-site.xml添加以下内容:
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
<property>
<name>yarn.nodemanager.aux-services.mapreduce.shuffle.class</name>
<value>org.apache.hadoop.mapred.ShuffleHandler</value>
</property>
4> 启动并验证
用如下命令启动或关闭Hadoop:
start-all.sh
stop-all.sh
如果一切正常,使用jps命令你会看到如下信息:
2499 ResourceManager
2965 Jps
2616 NodeManager
2186 DataNode
2075 NameNode
2363 SecondaryNameNode
2669 JobHistoryServer
访问8088端口可以查看job信息,访问50070端口可以查看namenode信息。
分享到:
相关推荐
此伪分布式搭建文件绝对正确,LZ亲自试验过。另,本文件为传智播客中使用文件,请勿用于商业用途,否则后果自负。
Hadoop2.2.0安装配置手册!完全分布式Hadoop集群搭建过程 按照文档中的操作步骤,一步步操作就可以完全实现hadoop2.2.0版本的完全分布式集群搭建过程
hadoop2.4.1伪分布式搭建
2、大数据环境-安装Hadoop2.5.2伪分布式傻瓜教程 原创
在Linux环境下配置Hadoop的伪分布式模式是学习和测试Hadoop功能的重要步骤。这个模式允许你在单个节点上运行Hadoop,模拟多节点集群的行为,无需物理扩展硬件资源。以下是对配置过程的详细解释: 首先,你需要确保...
Hadoop 2.2.0 分布式安装指导
本文档堪称最齐全的Hadoop-2.2.0搭建手册,不管是对于生手,还是对于想自己动手搭建的生手来说,都是非常有用的;因为自己是生手,看网上好多步骤,但还是有不懂的地方,所以自己整理下来了齐全的生手版,希望对一切...
### Hadoop安装教程:单机与伪分布式配置详解 #### 一、引言 Hadoop是一种开源的大数据处理框架,广泛应用于数据存储和处理场景。本文档将详细介绍如何在Ubuntu 14.04环境下安装配置Hadoop 2.6.0版本,包括单机模式...
### Hadoop伪分布式模式配置与安装详解 #### 一、前言 在深入探讨Hadoop伪分布式模式的配置与安装之前,我们先简单回顾一下Hadoop的基本概念以及它为何重要。Hadoop是一个开源框架,用于分布式存储和处理大规模...
最近自学hadoop2.0.0伪分布式搭建,都是一边学一边记录的 个人认为只要是稍微熟悉linux的都能看懂并搭建成功 分有点高,考虑好在下载
hadoop2.7分布式完全安装配置手册,含hbase1.2安装配置,图文并茂,一看就会。
在本教程中,我们将深入探讨如何在VMware虚拟机中安装CentOS7.0操作系统,并配置Hadoop3.1的伪分布式环境。这个过程对于学习Hadoop基础、大数据处理和分布式计算至关重要。以下是对整个搭建过程的详细步骤和知识点的...
### Hadoop伪分布式安装知识点详解 #### 一、Hadoop伪分布式概述 Hadoop是一种能够处理海量数据的大规模分布式计算框架。它通过将任务分解到多个计算机节点上并行处理来提高数据处理效率。Hadoop支持多种运行模式,...
Hadoop-2.4.0分布式安装手册
Hadoop2.2.0完全分布式集群平台安装设置 HDFS HA架构: 1、先设定电脑的IP为静态地址: 2、设置各个主机的hostname 3、在所有电脑的/etc/hosts添加以下配置: 4、设置SSH无密码登陆 5、下载解压hadoop-2.2.0.tar.gz...
Hadoop单机伪分布式安装 Hadoop 是一个开源的大数据处理框架,由 Apache 软件基金会开发和维护。Hadoop 的核心组件包括 HDFS(Hadoop Distributed File System)、MapReduce 和 YARN(Yet Another Resource ...