`
minglaihan
  • 浏览: 16681 次
  • 性别: Icon_minigender_1
  • 来自: 天津
文章分类
社区版块
存档分类
最新评论

ubuntu下hadoop全分布安装

 
阅读更多

个人历时3天遭遇各种问题才安装好,虽然网上很多教程,但是还是自己写一个总结一下

转载请注明出处:http://hanlaiming.freetzi.com/?p=77

1.实验环境

Ubuntu12.04

Hadoop1.2.1

Java1.6.0_13

2.实验准备

1.在所有机器上安装ubuntu12.04,过程不赘述。

在安装过程中命名所有的用户名是hadoop,机器名分别为minglaihan,node1,node2,其中minglaihan作为主节点,其他两个是从节点。

2.在所有机器上执行:

sudo gedit etc/hosts

添加如下地址:

192.168.1.104 minglaihan

192.168.1.109 node1

192.168.1.110 node2

3.保证你的用户拥有root级别

用gedit或者vim,

sudo gedit etc/sudoers

在root ALL=(ALL:ALL) ALL下添加hadoop ALL=(ALL:ALL) ALL。

3.安装过程

  1. 安装java

三台机器上都执行:

指令:cd ~/java

unzip jdk-6u13-linux-i586.zip

chmod +x jdk-6u13-linux-i586.bin

sudo ./ jdk-6u13-linux-i586.bin

接下来按Enter以及yes就可以了

Java安装好之后,在bash.bashrc里添加java路径

sudo gedit etc/bash.bashrc

添加:export JAVA_HOME=/home/hadoop/java/jdk1.6.0_13

export CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar

export PATH=$PATH:$JAVA_HOME/bin

然后就可以查看java –version。

  1. 安装ssh

三台机器上都执行:

sudo apt-get install ssh

安装完成后执行ssh localhost即可登录自身的ssh,

exit退出

  1. 配置ssh无密码登陆

Ssh的一个重要特点就是可以远程访问,接下来我们实现相互访问不需要密码。

在所有机器上执行:

cd ~/.ssh

ssh-keygen -t rsa -P “”之后一直按回车,然后可以看见提示生成密钥。

将id_rsa.pub追加到authorized_keys授权文件中

cat id_rsa.pub >> authorized_keys

然后在主节点minglaihan上执行:

进入/home/hadoop/.ssh目录中,复制authorized_keys到node1的.ssh文件夹中

scp authorized_keys hadoop@node1:/home/hadoop/.ssh

scp authorized_keys hadoop@node2:/home/hadoop/.ssh

接下来使用ssh node1和ssh node2就可以无密码访问了

  1. 安装hadoop

首先在所有机器上执行解压缩操作

tar zxvf hadoop-1.2.1.tar.gz

然后开始修改hadoop/conf里面的配置文件

① core-sie.xml

<configuration>

<property>

<name>hadoop.tmp.dir</name>

<value>/home/hadoop/hadoop-1.2.1/tmp</value>

<description>A base for other temporary directories.</description>

</property>

<property>

<name>fs.default.name</name>

<value>hdfs://minglaihan:9000</value>

<description>

The name of the default file system. A URI whose scheme and authority determine the FileSystem implementation. The uri’s scheme determines the config property (fs.SCHEME.impl) naming the FileSystem implementation class. The uri’s authority is used to determine the host, port, etc. for a filesystem.

</description>

</property>

</configuration>

② hadoop-env.sh

添加:export JAVA_HOME=/home/hadoop/java/jdk1.6.0_13

③ hdfs-site.xml

<configuration>

<property>

<name>dfs.replication</name>

<value>3</value>

<description>

Default block replication. The actual number of replications can be specified when the file is created. The default is used if replication is not specified in create time.

</description>

</property>

<property>

<name>dfs.name.dir</name>

<value>/home/hadoop/hadoop-1.2.1/hdfs/name</value>

<description>

</description>

</property>

<property>

<name>dfs.data.dir</name>

<value>/home/hadoop/hadoop-1.2.1/hdfs/data</value>

<description>

</description>

</property>

</configuration>

④ mapred-site.xml

<configuration>

<property>

<name>dfs.replication</name>

<value>3</value>

<description>

Default block replication. The actual number of replications can be specified when the file is created. The default is used if replication is not specified in create time.

</description>

</property>

<property>

<name>dfs.name.dir</name>

<value>/home/hadoop/hadoop-1.2.1/hdfs/name</value>

<description>

</description>

</property>

<property>

<name>dfs.data.dir</name>

<value>/home/hadoop/hadoop-1.2.1/hdfs/data</value>

<description>

</description>

</property>

</configuration>

⑤ master

minglaihan

⑥ slaves

node1

node2

  1. 启动hadoop

cd ~/hadoop-1.2.1

首先格式化namenode

bin/hadoop namenode –format

然后启动所有节点

bin/start-all.sh

用jps查看当前hadoop启动的进程

jps

如果如果有Namenode,SecondaryNameNode,TaskTracker,DataNode,JobTracker,Jps六个进程表示已经启动成功。

当然我在这一步卡了很久,始终有各种各样的问题,在这个过程中也会学到很多,所以遇到有namenode或者datanode没启动,主要的处理方法就是清除tmp和logs文件夹,然后每次格式化后查看logs,根据报错查找问题。

stop-all.sh停止所有进程

此时在浏览器中查看minglaihan:50030,可以看到hadoop的mapreduce管理界面

  1. wordcount测试

在home主目录下创建一个装有无数单词的文本,例如test.txt

将test.txt传输到hdfs系统的input里,

bin/hadoop fs -copyFromLocal home/hadoop/test.txt input

在hadoop文件夹下执行:

hadoop jar hadoop-examples-1.2.1.jar wordcount input output

将输出结果传到output里

此时mapreduce会显示执行信息,执行完毕后,用指令查看

hadoop fs –cat output/part-r-00000

显示计算单词结果

至此,hadoop环境基本安装,期间遇到各种问题不要放弃。。。

分享到:
评论

相关推荐

    Vmware和Ubuntu下hadoop完全分布式环境的快速搭建

    利用VMWare虚拟机建立3台ubuntu虚拟系统,在此基础上搭建的hadoop完全分布式环境,本人亲测可行

    ubuntu环境下hadoop环境搭建(伪分布模式)

    在Ubuntu环境下搭建Hadoop伪分布式模式,主要是为了模拟多节点Hadoop集群的环境,以便于学习和测试Hadoop的功能。这个过程涉及到多个步骤,包括必要的资源下载、软件安装、环境配置以及Hadoop服务的启动与验证。以下...

    Ubuntu_Hadoop分布部署.docx

    Ubuntu Hadoop分布式部署 Hadoop 是一个开源的分布式计算平台,由Apache基金会维护。它提供了一个框架来处理大量数据,并且可以在廉价的计算机集群上运行。本文将介绍如何在Ubuntu系统上部署Hadoop分布式系统。 ...

    hadoop伪分布配置

    本文详细介绍了如何在Ubuntu系统上配置Hadoop伪分布环境,包括提升用户权限、安装基础工具、安装JDK、安装Hadoop以及配置核心文件等步骤。通过以上步骤,可以在单机上模拟分布式环境,便于进行Hadoop相关的学习和...

    徐老师大数据 Hadoop架构完全分析课程 Hadoop入门学习视频教程

    010.Hadoop在Ubuntu下安装Hadoop.mp4 011.Hadoop配置独立模式.mp4 012.Hadoop配置伪分布模式.mp4 013.Hadoop配置完全分布模式之修改虚拟机名称和目录.mp4 014.Hadoop配置完全分布模式之修改登录提示和主机名.mp4 -...

    hadoop完全分布配置指南

    本文档假设存在三台机器,并且都安装了Ubuntu操作系统。 - **主机:** 192.168.1.138 (hadoop-master) - **数据节点1:** 192.168.1.140 (hadoop-node1) - **数据节点2:** 192.168.1.141 (hadoop-node2) 本指南已经...

    Hadoop完全分布模式安装.pdf

    在开始深入了解Hadoop完全分布模式安装之前,首先需要了解Hadoop运行模式的三种类型:本地运行模式、伪分布运行模式和完全分布式运行模式。本地运行模式仅在单机上模拟分布式计算;伪分布运行模式则是在单机上运行...

    详解Ubuntu16.04下Hadoop 2.7.3的安装与配置

    ### 详解Ubuntu16.04下Hadoop 2.7.3的安装与配置 #### 一、Java环境搭建 在安装Hadoop之前,必须先确保系统中已正确安装了Java开发工具包(JDK),因为Hadoop依赖于Java环境。 **步骤1:下载并解压JDK** 首先,...

    Hadoop的伪分布安装

    在本文中,我们将深入探讨如何在Linux环境下进行Hadoop的伪分布式安装,这对于初学者来说是一个重要的学习步骤。首先,我们需要确保系统环境是基于Linux的,因为Hadoop主要设计为在Linux操作系统上运行。 1. **...

    Hadoop伪分布环境部署

    Hadoop伪分布环境的部署涉及一系列详细的...以上知识点详细讲解了Hadoop伪分布环境的部署过程及相关技术背景,确保在不切换到root用户的情况下,顺利完成部署。在实际操作过程中,务必仔细检查每一步配置,确保无误。

    Ubuntu 8.10下Hadoop-0.20.1集群配置手册

    ### Ubuntu 8.10 下 Hadoop-0.20.1 集群配置详解 #### 一、集群网络环境介绍 本手册主要针对基于 Ubuntu 8.10 的 Hadoop-0.20.1 集群配置进行详细介绍。集群由三个节点组成:1个Namenode(主节点)和2个Datanode...

    在ubuntu下搭建hadoop环境搭建__说明文档

    ### 在Ubuntu下搭建Hadoop环境的关键步骤 ...通过以上步骤,您可以在Ubuntu系统下成功搭建起Hadoop环境,并且能够在单节点伪分布模式下运行Hadoop集群。这对于学习和测试Hadoop的基本功能非常有用。

    一键安装Hadoop.zip

    1. **系统准备**:确保操作系统为Linux,如Ubuntu或CentOS,因为Hadoop更适合在Linux环境下运行。 2. **安装Java**:Hadoop需要Java运行环境,确保系统已安装Java 8或更高版本。 3. **解压脚本**:将下载的"一键安装...

    Ubuntu 16.04 Hadoop-2.7.3全分布模式 + eclipse hadoop-附件资源

    Ubuntu 16.04 Hadoop-2.7.3全分布模式 + eclipse hadoop-附件资源

    hadoop单机版安装教程

    在单机版(Standalone)安装模式下,Hadoop主要用于学习和测试环境,不涉及分布式集群,所有服务都在一台机器上运行。下面将详细介绍Hadoop单机版的安装步骤及相关知识点。 1. **系统要求** 在开始安装前,确保你...

    hdfs.rar_hadoop_hadoop ubuntu_hdfs_分布式系统_基于hadoop

    "hadoop"和"hadoop_ubuntu"指出了与Hadoop在Ubuntu环境下的相关性;"hdfs"明确了讨论的是Hadoop的文件系统部分;"分布式系统"表明Hadoop是在分布式环境中运行的;"基于hadoop"则强调了所有内容都是围绕Hadoop生态...

    Hadoop伪分布式安装及配置参考步骤.docx

    在本实验中,我们将在Linux Ubuntu 16.04系统上安装Hadoop 2.6.0伪分布模式。下面是安装步骤: 步骤1:创建一个新用户及用户组 首先,创建一个名为zhangyu的用户,并为此用户创建home目录。 ```bash sudo useradd -...

Global site tag (gtag.js) - Google Analytics