`

Hadoop分布式集群平台搭建

 
阅读更多

目的


这篇文档的目的是帮助你快速完成在三台以上服务器搭建Hadoop应用平台。


先决条件


    VirtualBox  虚拟机共3台
      操作系统:Ubuntu 10.4
      内存: 256M以上

机器名 IP   作用 
master 10.9.9.100 NameNode、master、jobTracker
slave01 10.9.9.101 DataNode、slave、taskTracker
slave02 10.9.9.102 DataNode、slave、taskTracker


安装Hadoop集群前的准备工作

一、在每台机子上创建hadoop用户

$ group hadoop

$ useradd -g hadoop hadoop

$ passwd hadoop

 

  当然也可以用图形界面中 系统设置-〉用户和组 添加。添加之后注销使用hadoop用户登录,接下来的配置都用hadoop用户操作


二、修改hosts,在三台机子配置如下host


sudo vi  /etc/hosts

 

10.9.9.100 master
10.9.9.101 slave01
10.9.9.102 slave02
 

 

 

 


三、开启ssh服务

安装ssh服务 :sudo apt-get install openssh-server


(1)在 master 上实现无密码登录本机

$ ssh-keygen  –t  dsa

一路回车,

完成后会在/home/hadoop/.ssh下生成两个文件:id_dsa和id_dsa.pub。这两对是成对出现的。再把id_dsa.pub加到authorized_keys文件里。方法如下:进入/home/hadoop/.ssh目录:

$ cat id_dsa.pub >> authorized_keys

完成后可以实现无密码登录本机:

$ ssh localhost 

若无密码输入提示,则配置成功。


(2)实现 master 无密码登录其他slave01, slave02

在master机子上把id_dsa.pub文件复制给其它两台子

scp /home/hadoop/.ssh hadoop@slave01:/home/hadoop/


scp /home/hadoop/.ssh hadoop@slave02:/home/hadoop/


测试ssh 无密码登录

                $ ssh slave01

$ ssh slave02


安装


一、下载 jdk7     jdk-7-linux-x64.tar.gz

  http://www.oracle.com/technetwork/java/javase/downloads/java-se-jdk-7-download-432154.html

$ sudo tar -zxvf jdk-7-linux-x64.tar.gz -C /usr/local/java/

$ sudo mv /usr/local/java/jdk1.7.0 /usr/local/java/jdk


二、下载 hadoop  hadoop-0.21.0.tar.gz

http://www.apache.org/dyn/closer.cgi/hadoop/common/

解压重命名

$ sudo tar -zxvf  hadoop-0.21.0.tar.gz -C /usr/local/

$ sudo mv /usr/local/hadoop-0.21.0 /usr/local/hadoop


(2) 添加环境变量 

$sudo vi /etc/profile

 

export HADOOP_HOME=/usr/local/hadoop
export JAVA_HOME=/usr/local/java/jdk
export CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar
export PATH=$PATH:$JAVA_HOME/bin:$HADOOP_HOME/bin
 

 

 

注意:上面的路径要和你解压的路径相一致,以上的配置三台机子都要相同


配置hadoop


    (1)建立目录
             在master服务器上,建立目录 /data/hadoop/name、/data/hadoop/tmp
             在slave01,slave02服务器上,建立目录 /data/hadoop/data01、/data/hadoop/data02、/data/hadoop/tmp
        (2)建立无密码验证的ssh密钥及更改文件权限
             (mster)                  
              # chown hadoop:hadoop -R /usr/local/hadoop
             
 # chown hadoop:hadoop -R /data/hadoop/name /data/hadoop/tmp 

slave01、slave02

      # chown hadoop:hadoop -R /usr/local/hadoop

              # chown hadoop:hadoop -R /data/hadoop/data01 /data/hadoop/data02  /data/hadoop/tmp 


(3) 在master上修改配置文件修改完成后,拷贝到slave01和slave02保证配置文件保持一致

要修改的文件有  {hadoop-install-dir}/conf/目录下的,

hadoop_env.sh  core-site.xml hdfs-site.xml mapred-site.xml masters slaves 六个文件

=======   hadoop_env.sh==========

           配置Hadoop需要的环境变量,其中JAVA_HOME是必须设定的变量
           export  JAVA_HOME=/usr/java/jdk1.6.0

 

======= core-site.xml==========



<?xml version="1.0"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>

<!-- Put site-specific property overrides in this file. -->

<configuration>
  	<property>
		<name>hadoop.tmp.dir</name>
		<value>/data/hadoop/tmp</value>
		<description>A base for other temporary directories.</description>
  	</property>
                        <!-- file system properties -->
	<property>
		<name>fs.default.name</name>
		<value>hdfs://master:9000</value>         
	</property>
</configuration>


 

=======hdfs-site.xml=======



<?xml version="1.0"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>

<!-- Put site-specific property overrides in this file. -->

<configuration>
	<property>
		<name>dfs.replication</name>
		<value>1</value>
	</property>
	<property>
		<name>dfs.name.dir</name>
		<value>/data/hadoop/name</value>
	</property>
	<property>
		<name>dfs.data.dir</name>
		<value>/data/hadoop/data01,/data/hadoop/data02</value>
	</property>
</configuration>


 

================ mapred-site.xml ======================

             


<?xml version="1.0"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>

<!-- Put site-specific property overrides in this file. -->

<configuration>
<property> 
  <name>mapred.job.tracker</name> 
  <value>master:9001</value> 
</property> 
</configuration>

 

===============masters=====================

 

master
 

 


=============== slaves=========================

 

slave01
slave02
 

 


运行hadoop


  (1)格式化namenode

            $  hadoop namenode -format
            注意查看相关log是否报错,
将/data/hadoop/name文件夹整个删除或者给文件加上777权限 然后再格,一定要成功才能继续

  (2)启动hdfs服务
           $ start-all.sh


  (3)启动hdfs服务
           $ stop-all.sh


    (4)   查看结果

http://10.9.9.100:50070/

   (5)其它

           查看进程情况:  jps可以用来查看当前hadoop运行的进程情况。

         hadoop dfsadmin –report可以用来查看当前hadoop的运行情况。


           




分享到:
评论
2 楼 bingyingao 2013-03-20  
标记一下,用得上
1 楼 锅巴49 2011-09-30  
写得很详细,顶。

相关推荐

    基于Hadoop分布式集群搭建方法研究.pdf

    基于Hadoop分布式集群搭建方法研究的知识点包含以下几个方面: 1. Hadoop简介与大数据分布式基础架构: Hadoop是一个开源的大数据平台,由Apache软件基金会支持。它包括HDFS(Hadoop分布式文件系统)和MapReduce...

    基于Hadoop的分布式集群大数据动态存储系统设计.pdf

    为了解决这些问题,本文提出了一种基于Hadoop的分布式集群大数据动态存储系统的设计方案。 首先,需要明确Hadoop在大数据处理中的地位和作用。Hadoop是一个开源的分布式存储和计算平台,它提供了一套完整的生态系统...

    Hadoop分布式集群搭建.pdf

    《Hadoop分布式集群搭建》 在大数据处理领域,Hadoop是一个关键的开源框架,它提供了在分布式计算环境中存储和处理海量数据的能力。本教程将详细阐述如何在多台机器上搭建一个Hadoop分布式集群。 首先,搭建Hadoop...

    hadoop分布式文件系统搭建

    ### hadoop分布式文件系统...综上所述,本文详细介绍了如何从零开始搭建一个包含Hadoop分布式文件系统和Hive的数据处理平台。通过遵循上述步骤,可以构建一个基本的Hadoop集群,并在此基础上进行更高级的数据处理任务。

    部署全分布模式Hadoop集群 实验报告

    部署全分布模式Hadoop集群 实验报告一、实验目的 1. 熟练掌握 Linux 基本命令。 2. 掌握静态 IP 地址的配置、主机名和域名映射的修改。 3. 掌握 Linux 环境下 Java 的安装、环境变量的配置、Java 基本命令的使用。 ...

    构建Hadoop分布式集群环境

    构建Hadoop分布式集群环境是一项涉及多个知识点的复杂任务,它要求系统管理员或大数据工程师具备对Hadoop架构、云计算平台和Linux操作系统深入的理解和实践经验。下面将详细介绍在构建Hadoop分布式集群时所需的知识...

    Hadoop完全分布式环境搭建步骤

    Hadoop完全分布式环境搭建文档,绝对原创,并且本人亲自验证并使用,图文并茂详细介绍了hadoop完全分布式环境搭建所有步骤,条例格式清楚,不能成功的,请给我留言!将给与在线支持!

    Hadoop分布式集群容错验证.pdf

    由于其本身运行在大量廉价硬件设备集群上,因此,对Hadoop分布式集群的容错性验证显得尤为重要。 1. Hadoop平台搭建及容错验证 为了验证Hadoop的高容错性,首先需要在Linux系统上搭建一个Hadoop的集群环境。集群...

    hadoop分布式平台搭建手册

    通过上述步骤,您应该能够在Windows环境下成功搭建起一个基本的Hadoop分布式集群,并具备运行简单示例的能力。这不仅有助于理解Hadoop的工作原理,还能够为进一步深入学习和应用Hadoop打下坚实的基础。

    spark 分布式集群搭建

    ### Spark Standalone 分布式集群搭建详解 #### Spark Standalone 运行模式概述 Spark Standalone 是 Apache Spark 提供的一种自带的集群管理模式,主要用于管理 Spark 应用程序的执行环境。这种模式简单易用,适合...

    基于Hadoop的分布式集群平台构建方法研究.pdf

    3. Hadoop分布式集群平台构建过程:在构建Hadoop集群之前,需要先在每台机器上安装JDK(Java Development Kit),因为Hadoop是使用Java语言编写的。此外,建议将集群部署在Linux系统下,这样可以避免很多不必要的...

    基于hadoop的分布式存储平台的搭建与验证毕业论文.doc

    本文档是关于基于 Hadoop 的分布式存储平台的搭建与验证的毕业论文,论文涵盖了分布式存储平台的设计和实现,包括 NameNode 和 DataNode 的设计、安装和配置,以及 Hadoop 集群的搭建和测试。 知识点: 1. Hadoop ...

    基于Linux平台下的Hadoop和Spark集群搭建研究.pdf

    本文首先介绍了Hadoop和Spark的特点,然后对分布式集群的搭建进行研究并实现,给出了搭建步骤并完成了对集群的验证。Hadoop的特点包括文件系统HDFS的分布式存储和MapReduce的高性能计算,而Spark的特点包括计算效率...

    实验2 基于华为云的Hadoop分布式系统搭建1

    【实验名称】基于华为云的Hadoop分布式系统搭建1 【实验目的】 1. 学习和理解华为云平台的基本操作和资源管理,包括如何在华为云控制台上创建和管理弹性云服务器。 2. 掌握分布式文件系统HDFS(Hadoop Distributed...

    hadoop分布式云平台基础视频.rar

    这个“hadoop分布式云平台基础视频.rar”压缩包文件显然包含了关于Hadoop基础知识的视频教程,适合初学者和希望深入理解Hadoop分布式计算的人群。让我们通过标签和描述来详细探讨这些关键知识点。 1. **分布式系统*...

    Hadoop搭建实验报告

    NULL 博文链接:https://daxiangwanju.iteye.com/blog/1962175

    Hadoop大数据计算平台搭建实践.pdf

    这是对搭建环境的初步验证,以确保后续的Hadoop分布式计算能够正常进行。 10. 分布式部署方法 分布式部署方法涉及到的配置和步骤比较多,包括但不限于环境变量设置、格式化文件系统、启动集群服务等。在集群搭建...

    伪分布式大数据平台搭建实验综述.pdf

    随着大数据时代的到来,数据处理需求激增,Hadoop作为一种分布式集群架构,因其高可靠性和可扩展性而受到广泛应用。在个人学习和理解大数据平台的过程中,构建一个伪分布式环境是非常实用的方法。本文由汪庆发表,...

Global site tag (gtag.js) - Google Analytics