Ubuntu下hadoop的安装与配置
版本:Ubuntu13.10 -64bit, hadoop1.0.4
由于数据库课程作业的需要,最近在Ubuntu下配置了hadoop环境,在此作一下记录。
首先要了解一下,hadoop是Apache基金会开发的一个分布式系统基础架构,通过它可以方便高效地对大数据进行处理。hadoop有两种运行模式:
1. 单机模式
hadoop只运行在一台电脑上,不与集群中的其它节点交互,优势在于方便调试代码。
2. 集群分布模式
这种模式下hadoop同时运行在多个节点上,处理能力相当强大,这也正是我们所需要的。不过,hadoop环境部署与维护相对复杂性更高。
假定我们现在要搭建一个只有三台主机的小集群,三台主机ip地址与分工如下:
master:Namenode 192.168.1.170
slave1: Datanode 192.168.1.177
slave2: Datanode 192.168.1.179
hadoop单机模式
配置集群分布模式,此阶段单机模式的配置在每一台电脑上必须基本保持一致。
1. 添加hadoop用户
在三台电脑上添加相同的hadoop用户(这是hadoop集群的要求,否则各节点不能互相访问),创建用户的步骤如下:
1.1 添加组
sudo addgroup hadoop
1.2 添加用户
sudo adduser --ingroup hadoop hadoop
1.3 编辑/etc/sudoers编辑文件,在root ALL=(ALL)ALL行下添加hadoop ALL=(ALL)ALL。如果不添加这行,haduser将不能执行sudo操作。
添加用户成功之后,在终端中敲入”su - hadoop”切换到hadoop用户进行以下操作。
2. 安装jdk
2.1 下载jdk-8uversion-linux-x64.rpm:http://www.oracle.com/technetwork/java/javase/downloads/index.html
2.2 更改文件所有者,给文件jdk-8uversion-linux-x64.rpm添加可执行权限
chown hadoop:hadoop jdk-8uversion-linux-x64.rpm chmod +x jdk-8uversion-linux-x64.rpm
2.3 执行安装
rpm -ivh jdk-8uversion-linux-x64.rpm
2.4 增加JAVA_HOME环境变量
hadoop@slave02:~$ sudo vi /etc/profile
在最后面增加:
#set java environment export JAVA_HOME=/usr/java/jdk1.8.0 export CLASSPATH=.:$JAVA_HOME/lib export PATH=$PATH:$JAVA_HOME/bin:$JAVA_HOME
保存退出
最后使刚才的修改生效:
hadoop@slave02:~$ source /etc/profile
JAVA_HOME指明JDK安装路径,就是刚才安装jdk的路径,在/usr目录下找找就看到了。
2.5 在命令行输入
hadoop@slave02:~$ java -version
出现如下版本信息即为jdk配置成功:
3. 安装ssh
3.1 一般系统是默认安装了ssh命令的。如果没有,或者版本比较老,则可以重新安装:
hadoop@slave02:~$ sudo apt-get install openssh-server
3.2 设置local无密码登录
ssh生成密钥有rsa和dsa两种生成方式,默认情况下采用rsa方式。
(1) 创建ssh-key,这里采用rsa方式:
hadoop@slave02:~$ ssh-keygen -t rsa -P ""
(注:回车后会在~/.ssh/下生成两个文件:id_rsa和id_rsa.pub这两个文件是成对出现的)
(2) 进入~/.ssh/目录下,将id_rsa.pub追加到authorized_keys授权文件中,开始是没有authorized_keys文件的:
hadoop@slave02:~$ cd ~/.ssh hadoop@slave02:~$ cat id_rsa.pub >> authorized_keys
(完成后就可以无密码登录本机了。)
(3) 登录localhost:
hadoop@slave02:~$ ssh localhost
( 注:当ssh远程登录到其它机器后,现在你控制的是远程的机器,需要执行退出命令才能重新控制本地主机。)
(4) 执行退出命令:
hadoop@slave02:~$ exit
4. 安装hadoop
4.1 假设hadoop-1.0.4.tar.gz在当前目录,将它复制到安装目录 /usr下:
hadoop@slave02:~$ sudo cp hadoop-1.0.4.tar.gz /usr
4.2 解压hadoop-1.0.4.tar.gz:
hadoop@slave02:~$ cd /usr hadoop@slave02:~$ sudo tar -zxvf hadoop-1.0.4.tar.gz
4.3 将解压出的文件夹改名为hadoop:
hadoop@slave02:~$ sudo mv hadoop-1.0.4 hadoop
4.4 将该hadoop文件夹的属主用户设为hadoop:
hadoop@slave02:~$ sudo chown -R hadoop:hadoop hadoop
注:为了避免出错,不妨更改一下hadoop目录以及目录下文件子目录的权限:
hadoop@slave02:~$ sudo chmod -R 764 hadoop
5. 配置hadoop环境
进入usr/hadoop目录:
5.1 配置conf/hadoop-env.sh
编辑conf目录下hadoop-env.sh,添加以下信息:
export JAVA_HOME=/usr/java/jdk1.8.0 #视你机器的java安装路径而定) export HADOOP_HOME=/usr/hadoop export PATH=$PATH:/usr/hadoop/bin
并且,让环境变量配置生效source:
hadoop@slave02:~$ source /usr/hadoop/conf/hadoop-env.sh
5.2 配置conf/core-site.xml
编辑如下:
5.3 配置conf/mapred-site.xml
编辑如下:
5.4 配置conf/hdfs-site.xml
编辑如下:
5.5 打开conf/masters文件,添加作为secondarynamenode的主机名,对于单机模式,这里只需填写 localhost 就好了。
5.6 打开conf/slaves文件,添加作为slave的主机名,一行一个。对于单机模式,这里也只需填写 localhost就好了。
6. 启动测试
6.1 格式化HDFS,执行如下命令:
hadoop@slave02:~$ hadoop namenode -fomat
6.2 启动start-all.sh:
hadoop@slave02:~$ start-all.sh
6.3 检测hadoop是否启动成功:
hadoop@slave02:~$ jps
如果有Namenode,SecondaryNameNode,TaskTracker,DataNode,JobTracker五个进程,就说明你的hadoop单机版环境配置好了!
6.4 检查运行状态
所有的设置已完成,Hadoop也启动了,现在可以通过下面的操作来查看服务是否正常,在Hadoop中用于监控集群状态的Web界面:
http://localhost:50030/ - Hadoop 管理介面
http://localhost:50060/ - Hadoop Task Tracker 状态
http://localhost:50070/ - Hadoop DFS 状态
当Hadoop结束时,可以通过stop-all.sh脚本来关闭Hadoop的守护进程
hadoop集群分布模式
1. 修改主机名和host文件
1.1 三台电脑分别修改主机名为master, slave1, slave2:
sudo vi /etc/hostname
(注:要重启生效)
1.2 打开本机host文件(三台电脑操作一致):
sudo vi /etc/hosts
在后面添加内容:
192.168.1.170 master 192.168.1.177 slave1 192.168.1.179 slave2
2. 配置master ssh无密码登录其它节点
2.1 master公钥复制(这里都要复制到slave1和slave2,以slave1为例)
hadoop@master:~$ scp ~/.ssh/id_rsa.pub hadoop@slave1:~/.ssh/
然后输入密码回车。
2.2 在每个节点电脑上添加master公钥
cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys
2.3 master测试无密码登录其它节点
hadoop@master:~$ ssh slave1
如果不输入密码,直接提示登录成功则配置完成。
3. 配置hadoop集群环境(只在master上操作)
进入/usr/hadoop目录:
3.1 修改conf/masters
3.2 修改conf/slaves
4. 启动集群
4.1 在master上面执行:
hadoop@master:~$ start-all.sh
4.2 在各节点上通过jps命令查看相关进程是否启动。
jps
至此,hadoop环境配置已经完成,接下来尽情感受hadoop强大的运算能力吧!
相关推荐
### 基于Ubuntu的Hadoop简易集群安装与配置知识点详解 #### 一、绪论 ##### 1.1 研究背景及意义 在当前信息化社会中,随着科技的发展与进步,尤其是互联网技术的普及,我们正处在一个数据爆炸的时代。各行各业都在...
在本文中,我们将详细探讨如何在Ubuntu 10.10 (Maverick Meerkat)上通过VMware虚拟机安装并配置Hadoop集群。这个过程涵盖了从搭建虚拟环境到安装必要的软件,以及最终配置Hadoop分布式文件系统(HDFS)和MapReduce服务...
本文将详细介绍基于Ubuntu环境下的Hadoop集群安装与配置,涵盖Hadoop的基本概念、HDFS(分布式文件系统)、MapReduce(分布式计算模型)、集群架构、NameNode和DataNode的角色、JobTracker和TaskTracker的职责等方面...
Hadoop安装教程_单机/伪分布式配置_Hadoop2.7.1/Ubuntu 16.04 本教程主要讲述了在 Ubuntu 16.04 环境下安装 Hadoop 2.7.1 的步骤,包括单机模式、伪分布式模式和分布式模式三种安装方式。以下是本教程的知识点总结...
在Ubuntu下利用Hadoop配置与搭建分布式系统。 全部是自己搜网上资料, 自己摸索写的。 内容详细!
hadoop安装与配置 本文基于Docker在ubuntu容器搭建hadoop集群,并进行配置。 查找ubuntu容器 sudo docker search ubuntu 下载ubuntu16.04版本镜像 sudo docker pull ubuntu:16.04 如果需要查看已经下载的镜像 sudo...
hadoop安装与配置 本文基于Docker在ubuntu容器搭建hadoop集群,并进行配置。 查找ubuntu容器 sudo docker search ubuntu 下载ubuntu16.04版本镜像 sudo docker pull ubuntu:16.04 如果需要查看已经下载的镜像 sudo...
### Hadoop 在 Ubuntu 下的安装教程 #### 一、安装 Linux 操作系统 在搭建 Hadoop 开发环境之前,首先需要确保系统环境已准备好。本文档假设你正在使用 Ubuntu 12.04 操作系统。 如果你还没有安装 Linux 操作系统...
【标题】: "基于Ubuntu的hadoop集群安装与配置.pdf" 【内容概要】: 本文档主要介绍了如何在Ubuntu操作系统上安装和配置Hadoop集群,以及Hadoop的基本原理和核心组件。Hadoop是一个开源的分布式计算平台,由Apache...
### Hadoop 0.20.2 在 Ubuntu 上的安装配置详解 #### 一、概述 本文档旨在为初学者提供一份详细的指南,用于在 Ubuntu Server 12.04 x64 系统上安装并配置 Hadoop 0.20.2。通过本文档的学习,读者可以掌握如何搭建...
7. 在 Ubuntu 操作系统上搭建 Hadoop 单节点需要完成环境准备、软件安装和配置过程。 8. 配置 SSH 免密钥登录可以确保可以无需密码登录。 9. 修改配置文件,包括 core-site.xml 和其他文件,是搭建 Hadoop 单节点的...
Hadoop 安装与配置实验报告 本实验报告的目的是对 Hadoop 的安装与配置进行实验和实践,掌握 Hadoop 的基本使用和配置方法。该实验报告将分为 several 部分,分别是实验名称、实验日期、实验目的、实验用的仪器和...
本教程是根据个人在UBUNTU虚拟机上安装配置Hadoop2.7.3的实际操作步骤一步步记录下来的,大部分指令操作的目的都加了注释以方便理解。(本教程很详细,如果还是遇到问题可以直接咨询楼主,不会让你的积分百花的)
Hadoop的安装与配置是一个相对复杂但结构化的过程,主要涉及环境准备、软件安装、配置调整以及集群启动等多个步骤。以下是一个详细的Hadoop安装与配置指南: 一、环境准备 硬件与软件要求 硬件:Hadoop集群至少需要...
#### 三、Hadoop的安装与基本配置 接下来详细介绍如何在Ubuntu 16.04上安装并配置Hadoop。 1. **下载Hadoop安装包**:访问Hadoop官方网站 (http://hadoop.apache.org/releases.html),选择Hadoop 2.6.5版本的...
通过本实验,用户可以学习如何安装 VMware Workstation 16 Pro、Ubuntu 和 Hadoop,以及如何配置虚拟机环境。 知识点一:VMware Workstation 16 Pro 的安装 VMware Workstation 16 Pro 是一个功能强大且流行的...