`
臻是二哥
  • 浏览: 189153 次
  • 性别: Icon_minigender_1
  • 来自: 杭州
博客专栏
Group-logo
Java技术分享
浏览量:0
社区版块
存档分类
最新评论

ubuntu14.04的hadoop环境搭建(全分布模式)

阅读更多

hadoop0.20.2软件下载http://pan.baidu.com/s/1kTurQJH

jdk7u71-linux-i586下载http://pan.baidu.com/s/1pJyT1OZ

在搭建集群之前需要作如下准备工作, (博文使用hadoop0.20.203.0作为例子讲解,推荐使用hadoop0.20.2更加稳定,两者配置过程相同)
1 配置好静态IP,并且在所有的机器上建立相同的用户名和密码,这里我的用户名xuyizhen

参见我的博客http://2710067471.iteye.com/blog/2118385
2 保证所有的系统都安装了ssh,同时所有的节点之间已经实现了无密码登陆

参见我的博客http://2710067471.iteye.com/blog/2145182
3 保证所有的系统都安装了JDK,应该是1.6以上版本

参见我的博客http://2710067471.iteye.com/blog/2144835

接下来进行hadoop配置: 
在所有机器上,进入他们的 /etc/hosts 目录,添加所有节点的IP以及名字

我的集群共有三台电脑,因此我的配置如下:



  

注意,每个电脑的IP和名字占一行
2 在master电脑解压位于/home/xuyizhen目录下的hadoop压缩包tar -zxvf hadoop-0.20.203.0.orc1.tar.gz

重命名为hadoop



 
进入到/home/xuyizhen/hadoop/conf文件夹下: 



 
修改Hadoop核心配置文件core-site.xml,这里配置的是HDFS的地址和端口号。

<configuration>

<property>

<name>hadoop.tmp.dir</name>

<value>/home/xuyizhen/hadoop/tmp</value>

(备注:请先在 /home/xuyizhen/hadoop目录下建立 tmp 文件夹)

</property>

<property>

<name>fs.default.name</name>

<value>hdfs://192.168.0.21:9000</value>

</property>

</configuration>

 

 
 

  备注:如没有配置hadoop.tmp.dir参数,此时系统默认的临时目录为:/tmp/hadoo-hadoop。而这个目录在每次重启后都会被干掉,必须重新执行format才行,否则会出错。

配置hdfs-site.xml文件 ,修改Hadoop中HDFS的配置,配置的备份方式默认为3。

<configuration>

<property>

<name>dfs.replication</name>

<value>2</value>

(备注:replication 是数据副本数量,默认为3,salve少于3台就会报错)

</property>

</configuration>



  

配置mapred-site.xml文件 ,修改Hadoop中MapReduce的配置文件,配置的是JobTracker的地址和端口。

<configuration>

<property>

<name>mapred.job.tracker</name>

<value>http://192.168.0.21:9001</value>

</property>

</configuration>



  

上面的三个文件修改完毕后保存退出。 

接着修改/home/xuyizhen/hadoop/conf/masters文件 



  

添加内容

master(每个名字占一行) 


接着修改/home/xuyizhen/hadoop/conf/slaves文件 



  

添加内容

slave1

slave2
保存后退出。(每个名字占一行) 

4/home/xuyizhen/hadoop文件夹复制到其他机器/home/xuyizhen文件夹下

scp -r /home/xuyizhen/hadoop 192.168.0.22:/home/xuyizhen

scp -r /home/xuyizhen/hadoop 192.168.0.23:/home/xuyizhen

5最后,打开每个机器的/home/xuyizhen/hadoop/conf/hadoop-env.sh文件

在末尾添加当前机器的JAVA_HOME  
export JAVA_HOME=/usr/java/jdk1.7.0_71

6 打开xuyizhen用户的.bashrc文件,添加hadoop的环境变量



 

 
6至此,Hadoop已经部署完毕,重启所有机器

如果要添加或则删除节点,仅仅需要修改NameNode的Masters和Slaves即可。 
7现在,在namenode节点上执行命令: 
hadoop  namenode -format 
start-all.sh 

8好了,hadoop已经跑起来了。 
在所有机器节点上执行jps命令 
master节点显示:(进程号允许不同) 



 
Slave1节点应该显示:



  

Slave2节点显示:



  

如上结果,hadoop已经成功安装。 

 

下面进行测试:

/home/xuyizhen目录下建立文件夹input

mkdir input

进入该文件夹

cd  /home/xuyizhen/input

并写入两个文件

echo hello world >> 1.txt

echo hello count >> 2.txt

将input文件夹导入dfs中

hadoop dfs -put input in

运行wordcount程序

hadoop jar hadoop-examples-0.20.203.0.jar wordcount in out

查看统计结果

Hadoop dfs -cat out/*

注意:可能出现 INFO ipc.Client: Retrying connect to server: /192.168.0.21:9000. Already tried 4 times错误

这是由于/etc/hosts中的内容有误



  

将其中第二行的master删除后重新运行(注意每个节点都有/etc/hosts)

<!--EndFragment-->

 

 

<!--EndFragment-->
  • 大小: 5.6 KB
  • 大小: 2.5 KB
  • 大小: 2.5 KB
  • 大小: 17.1 KB
  • 大小: 8.4 KB
  • 大小: 9.7 KB
  • 大小: 2.6 KB
  • 大小: 2.6 KB
  • 大小: 2.7 KB
  • 大小: 9.7 KB
  • 大小: 6.6 KB
  • 大小: 5.7 KB
  • 大小: 6.7 KB
  • 大小: 7.5 KB
2
0
分享到:
评论

相关推荐

    ubuntu server 14.04上编译Hadoop 2.6.4

    ### Ubuntu Server 14.04 上编译 Hadoop 2.6.4 的详细步骤 #### 一、环境准备 在开始编译 Hadoop 2.6.4 之前,确保您的环境中已经具备以下条件: 1. **Ubuntu Server 14.04 (64位)**:本教程将在 Ubuntu Server ...

    Ubuntu 14.04 LTS下通过Cloudera CDH 5.4.8搭建Hadoop集群.pdf

    通过以上步骤,可以成功在Ubuntu 14.04 LTS环境下通过Cloudera CDH 5.4.8搭建出一个功能完备的Hadoop集群。在整个过程中,关键是要仔细遵循官方指南和最佳实践,确保每个环节的准确性,从而避免潜在的问题和错误。

    如何在Vmware上用Ubuntu系统搭建Hadoop和spark环境

    一个描述环境搭建的文档,我用的Vmware10和Ubuntu14.04,Hadoop2.7

    Hadoop2.6.0集群环境搭建

    1.linux系统:Ubuntu14.04 2.hadoop版本:hadoop-2.2.0 3.JDK版本:Jdk1.8.0_74

    ubuntu下搭建hadoop

    本文将详细介绍如何在 Ubuntu 操作系统下搭建 Hadoop 的单机版与伪分布式环境。 #### 2.1 Hadoop 的单机搭建 ##### 2.1.1 准备工作 1. **安装 Ubuntu 虚拟机**:首先,需要在虚拟机中安装 Ubuntu。推荐使用 ...

    CDH 5.4.7本地快速安装教程,基于ubuntu14.04

    Cloudera 企业级数据中心的安装文档,基于Ubuntu 14.04( trusty) 本地快速安装 CDH 5.4.7,这篇文档将采用5节点,重介绍 Cloudera 管理器与 CDH 的安装注意事项,欢迎大数据工程师下载搭建测试环境.

    虚拟机Ubuntu+Hadoop+hive安装教程.docx

    这个教程详细地指导了在虚拟机中搭建Hadoop和Hive环境的全过程,涵盖了从虚拟机的创建到软件的安装、配置和启动。对于学习和实验Hadoop和Hive的初学者来说,这是一个非常实用的指南。通过这个过程,你可以了解分布式...

    Hadoop完全分布模式安装.pdf

    在开始深入了解Hadoop完全分布模式安装之前,首先需要了解Hadoop运行模式的三种类型:本地运行模式、伪分布运行模式和完全分布式运行模式。本地运行模式仅在单机上模拟分布式计算;伪分布运行模式则是在单机上运行...

    win7+eclipse+hadoop开发环境搭建[收集].pdf

    在Windows 7操作系统中搭建Hadoop开发环境,通常需要借助Eclipse IDE和虚拟机软件,如Ubuntu,来实现。以下是一步步的详细步骤: 1. **安装虚拟机和Ubuntu操作系统**: - 首先,你需要下载并安装虚拟机软件,如...

    第一章 大数据安装教程(Virtual&ubuntu&hadoop单机)

    在进入大数据领域之前,首要任务是搭建一个合适的学习环境,这通常涉及到在...通过这个教程,你不仅学会了如何搭建Hadoop单机环境,还能了解到大数据框架的基本组件和它们的工作方式,为后续的大数据学习打下坚实基础。

    第2章-hadoop安装.docx

    【标题】: "Hadoop 安装指南——Ubuntu 14.04 64位" 【描述】: 本教程详细介绍了如何在Ubuntu 14.04 64位操作系统...通过本教程,你可以成功在Ubuntu 14.04上搭建起Hadoop环境,为后续的大数据处理学习打下坚实基础。

    如何快速搭建Hadoop运行环境.doc

    在大数据领域,Hadoop是一个不可或缺的分布式系统基础架构,它为海量数据的存储和...然而,实际生产环境中,Hadoop通常会在多台机器上以集群模式运行,这时还需要考虑网络配置、数据分布策略、容错机制等更复杂的因素。

    Hadoop云计算平台搭建方案2..doc

    【Hadoop云计算平台搭建方案】 在当今大数据时代,Hadoop成为了处理海量数据的重要工具,它是一种开源的云计算基础框架,能够高效地存储和处理大规模数据。本方案将详细介绍如何搭建一个基于Hadoop的云计算平台,以...

    hadoop伪分布式配置教程.doc

    本教程详细指导如何在Ubuntu 14.04 64位系统上配置Hadoop的伪分布式环境。虽然教程是基于Ubuntu 14.04,但同样适用于Ubuntu 12.04、16.04以及32位系统,同时也适用于CentOS/RedHat系统的类似配置。教程经过验证,...

    Hadoop云计算平台搭建方案2.1.doc

    【Hadoop云计算平台搭建方案2.1】 在电力企业中,大数据分析...这个Hadoop云计算平台搭建方案详细列出了每一步操作,有助于初学者或专业人员高效地构建一个稳定的Hadoop环境,为电力企业的大数据应用提供强大支持。

    Ubuntu14.docx

    【Ubuntu 14.04 Hadoop集群搭建】 在信息技术领域,Hadoop是一个开源的分布式计算框架,主要用于处理和存储海量数据。Ubuntu 14.04作为一个稳定且广泛使用的Linux发行版,是搭建Hadoop集群的理想选择。本文将详细...

    Hadoop云计算平台搭建方案2.1.docx

    在硬件和软件配置方面,选用的是Linux操作系统,具体为Ubuntu 14.04桌面版,这是因为Linux系统在稳定性和资源管理方面表现出色,适合部署分布式系统。此外,Java Development Kit (JDK) 1.8.0_20是必备的,因为...

    hadoop-2.6.4安装全过程

    主要是讲述的ubuntu server14.04下安装Hadoop2.6.4集群

    基于Hadoop的数据分析.doc

    实验是在Ubuntu 14.04虚拟机上进行的,同时使用了Hadoop 1.2.1版本和Eclipse SDK 4.3.1作为开发工具。在这样的环境中,Hadoop提供分布式存储和计算能力,而Eclipse则作为开发和调试MapReduce程序的平台。 **二、...

Global site tag (gtag.js) - Google Analytics