`
bearsorry
  • 浏览: 94168 次
  • 性别: Icon_minigender_2
  • 来自: 湖南
社区版块
存档分类
最新评论

hadoop集群环境的配置

阅读更多

  之前说过,我们的hadoop集群已经搭建起来了,只是具体的步骤还没来得及整理,幸好今天又把流程走了一遍,真的是不做不晓得,一做才发现自己原来什么都忘记得差不多了,在此记录一下搭建hadoop集群的步骤,便于需要的时候看看!

  这个配环境的过程真的是比较困难的,我今天搞了一天终于把自己的机器作为datanode连接上了master机器,我还是年前搞过一遍的呢,所以这个还是需要耐心+细心的!

  这里首先声明一下,我之前在我的机器上配置过了hadoop的单机伪分布环境,今天才将我的机器作为一个datanode加入到hadoop集群上的,但是装的ubuntu的版本和jdk的位置跟集群上的都不一样,这说明这个不影响hadoop集群的配置,但是,jdk的版本号和hadoop的版本号以及hadoop装的位置都必须是一样的!下面我们就开始吧!

 

 一、资源的准备:

 (1)ubuntu-11.10-beta2-desktop-i386.iso ,ubuntu的安装,直接双击下载的这个东西就行了,真的就像装软件一样!

 (2)jdk-6u30-linux-i586.bin,安装jdk要用的,一个hadoop集群上只能用一个版本的jdk,我们用的是这个版本。

 (3)hadoop-0.20.203.0rc1.tar.gz,安装hadoop集群必备的!

 

 二、jdk的安装(这里的路径可以自己确定,不一定要和集群上的一样)
    我的是放在/home/acer下面的(acer是我电脑的用户名)


    1.将刚才准备的jdk放到这个目录下(这一步不是必要的)

     sudo cp jdk以前的路径 jdk现在的路径
 
    2.解压执行安装jdk(这里会涉及到权限的问题)

      先修改jdk文件的权限
      sudo chmod u+x jdk-6u30-linux-i586.bin
      再执行安装
      sudo ./jdk-6u30-linux-i586.bin
      第二步完成之后就会在/home/acer/目录下出现一个
jdk1.6.0_30的文件夹
 
   3.配置环境变量
    编辑配置文件:sudo gedit /etc/profile
 
    在这个文件最后面添加这么几行:

    export JAVA_HOME=/home/acer/jdk1.6.0_30

    export JRE_HOME=/home/acer/jdk1.6.0_30/jre 
    export CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar

    export PATH=$JAVA_HOME/bin:$PATH
 

  4.重启机器,查看jdk是否安装成功以及版本号
    在终端输入:java

    如果出来一系列目录东东就是正确了
    在终端输入:java -version

    可以查看jdk的版本号
    如果木有安装成功,可能就是配置问题了,慢慢看,细心点就应该没有问题了!

 

 三、安装hadoop(主要针对master机器)
  只要在master机器上安装hadoop就行了,其他机器上的hadoop都可以直接通过连接远程服务器的方式进行复制,这样就方便多了!

 

  1.将刚才准备的 hadoop-0.20.203.0rc1.tar.gz文件复制到/usr/local文件目录下面:
    sudo cp hadoop压缩包路径 /usr/local

  2.解压hadoop软件包
    sudo tar -xzf  hadoop-0.20.203.0rc1.tar.gz
   为了以后写目录方便,将解压出来的文件修改名字为hadoop:
   sudo mv hadoop-0.20.203.0 hadoop


  3.为hadoop集群中的每一个节点都创建一个hadoop的用户组和hadoop用户名,这样便于记忆以及管理
    建立hadoop用户组:sudo addgroup hadoop
    在hadoop用户组下面建立一个hadoop用户名:
    sudo adduser -ingroup hadoop hadoop
    (这里创建hadoop用户的时候很多信息你不用去添,一直按enter键就行了)

   

  4.添加hadoop用户的权限
    打开sudoers文件:sudo gedit /etc/sudoers
    在root ALL=(ALL:ALL) ALL后面加上一行:
    hadoop ALL = (ALL) ALL

    创建了hadoop用户了之后我们以后就都在这个下面进行终端的操作了!

 

 5.配置conf/hadoop-env.sh文件;
   切换路径:cd /usr/local/hadoop
   
编辑文件:sudo gedit conf/hadoop-env.sh
   将JAVA_HOME前面的#号去掉,java路径改为:
   JAVA_HOME=/home/acer/jdk1.6.0_30
 6.配置hosts文件(建立映射关系,用户
名和ip一一对应着添加进来)
   sudo gedit /etc/hosts
   添加之后是这样:
   127.0.0.1   localhost
   127.0.0.1   ubuntu.ubuntu-domain    ubuntu
   192.168.1.11 master
   192.168.1.7
s7
   192.168.1.2 s2
   192.168.1.3 s3
   192.168.1.4 s4
   192.168.1.6 s6
   192.168.1.5 s5
   192.168.1.8 s8
   192.168.1.9  s9
   192.168.1.10 secondaryname

 


   # The following lines

   are desirable for IPv6 capable hosts
   ::1     ip6-localhost ip6-loopback
   fe00::0 ip6-localnet
   ff00::0 ip6-mcastprefix
   ff02::1 ip6-allnodes
   ff02::2 ip6-

   allrouters

(注:这里可以修改自己主机的名字:sudo gedit /etc/hostname 在这个文件里面修改这个名字就行了)


7.配置master和slaves文件
  cd/usr/local/hadoop
  sudo gedit

  conf/masters 将这个文件的内容改为:master
  sudo gedit conf/slaves 将这个文件改为:
  s2
  s3
  s4
  s5
  s6
  s7
  s8
  s9
(这些就是要加进来的datanode节点的名称,其实这些只要在master机
器上配置就行了)

 

8.配置core-site、mapred-site、hdfs-site文件
  sudo gedit conf/core-site.xml
  修改为:
 <configuration>
 <property> 
   <name>fs.default.name</name>  

   <value>hdfs://master:9000</value>  
   </property>  
  </configuration>

 

  sudo gedit conf/mapred-site.xml
  <configuration>
   <property>   
     
<name>mapred.job.tracker</name> 
      <value>master:9001</value>  
   </property> 
  </configuration>


  sudo gedit conf/hdfs-site.xml
  <configuration>
  <property>
  <name>dfs.name.dir</name>
  <value>/usr/local/hadoop/datalog1,/usr/local/hadoop/datalog2</value>
  </property>
  <property>
  <name>dfs.data.dir</name>
  <value>/usr/local/hadoop/data1,/usr/local/hadoop/data2</value>
  </property>
  <property>
  <name>dfs.replication</name>
  <value>2</value>
  </property>
  </configuration>

 

 

9.安装SSH

  切换到hadoop用户下或者以hadoop身份登录;

  1、下载ssh:sudo apt-get install openssh-server;

  2、创建sshkey为rsa;ssh-keygen -t rsa -P ""(注意:这里的P是大写的P)
    填写key保存路径的时候可以直接使用默认的(一直按enter键就行了。)

  3、将ssh-key添加到受信任列表并启用ssk-key
    cat /home/hadoop/.ssh/id_rsa.pub >>  /home/hadoop/.ssh/authorized_keys 
   (将公钥追加到收信任文件);
   重启ssh:sudo /etc/init.d/ssh reload 
  4、验证ssh是否

    安装成功ssh localhost;


10.生成公钥
   ssh-keygen -t dsa -P "" -f ~/.ssh/id_ rsa


11.启动namenode
   namenode启动之前做一次 block 负载均衡
    

    sudo gedit  conf/hdfs-site.xml
 
     <property>  
        <name>dfs.balance.bandwidthPerSec</name>      

        <value>10485760</value>  
         <description> 
            
Specifies the maximum bandwidth that each datanode can utilize for the balancing purpose in term of the number of bytes per second. 
         </description> 
     </property>   
    

    bin/start-balancer.sh

 

    bin/start-dfs.sh


好了,到这里基本就差不多了,接下来就是远程复制文件了
要将master机器上的文件一一复制到datanode机器上:(这里以s2为例子)

(1)公钥的复制
    scp ~/.ssh/id_rsa.pub
hadoop@s2:~/.ssh/

(2)hosts文件的复制
    scp /etc/hosts 
hadoop@s2:/etc/hosts
    注:这里如果不能复制,就先将文件复制到/home/hadoop下面,即为:

    scp /etc/hosts hadoop@s2:/home/hadoop,再在datanode机器上将其移到相同的路径下面/usr/local

(3)hadoop文件夹的复制,其中的配置也就一起复制过来了!
    scp /usr/local/hadoop
hadoop@s2:/usr/local
    如果不能移动的话和上面的方法一样!
这些东西都复制完了之后,datanode机器还要将复制过来的公钥追加到收信任列表:

    cat ~/.ssh/id_rsa.pub >>  ~/.ssh/authorized_keys,还有很重要的一点,datanode机器要把复制过来的hadoop里面的data1,data2和logs删除掉!

这样之后基本上就差不多了,启动datanode和tasktracker:
    bin/hadoop-daemon.sh start datanode
    bin/hadoop-daemon.sh start tasktracker 
这里还可能会涉及到权限的问题:这里我们统一将/usr/local/hadoop文件夹里面的东西的所有者改为hadoop,所属组为hadoop:
   sudo chgrp -R hadoop hadoop
   sudo chown -R hadoop:hadoop

查看自己的datanode是否启动:jps
当jps不能正常使用的时候:resource /etc/profile

连接时可以在namenode上查看连接情况:
      bin/hadoop dfsadmin -report
也可以直接进入网址:master:50070

 

PS:常用到的一些命令:
新建目录(文件夹)
sudo mkdir 文件夹目


删除目录(文件夹)
sudo rm -rf 文件夹目录

 

 

这里写得还不是很全面,因为现在对这个东西了解得不是很深入,所以只能暂时这么写着,到时候通过研究,会对其进行一些修改及说明的!

0
2
分享到:
评论

相关推荐

    hadoop集群环境的搭建

    "hadoop集群环境的搭建" Hadoop 是一个开源的大数据处理框架,由Apache基金会开发和维护。它可以实现大规模数据的存储和处理,具有高可扩展性、可靠性和高性能等特点。搭建 Hadoop 集群环境是实现大数据处理的重要...

    Hadoop集群pdf文档

    Hadoop_Hadoop集群(第7期)_Eclipse开发环境设置 Hadoop_Hadoop集群(第8期)_HDFS初探之旅 Hadoop_Hadoop集群(第9期)_MapReduce初级案例 Hadoop_Hadoop集群(第10期)_MySQL关系数据库 Web(Json-Lib类库使用...

    Hadoop集群环境搭建

    集群搭建是Hadoop集群环境搭建的核心步骤,包括下载并解压Hadoop、配置环境变量、修改配置文件等几个方面。在下载Hadoop时,我们可以选择CDH版本的Hadoop,下载地址为http://archive.cloudera.com/cdh5/cdh/5/。在...

    部署全分布模式Hadoop集群 实验报告

    部署全分布模式Hadoop集群 实验报告一、实验目的 1. 熟练掌握 Linux 基本命令。 2. 掌握静态 IP 地址的配置、主机名和域名映射的修改。 3. 掌握 Linux 环境下 Java 的安装、环境变量的配置、Java 基本命令的使用。 ...

    Hadoop集群安装与配置详细步骤

    "Hadoop 集群安装与配置详细步骤" Hadoop 集群安装与配置详细步骤是大数据处理和存储的重要组件。为了实现高效的数据处理和存储,需要安装和配置 Hadoop 集群。本节将详细介绍 Hadoop 集群安装与配置的步骤。 安装...

    Hadoop集群环境虚拟机上搭建详解

    总结来说,搭建Hadoop集群环境首先需要准备虚拟机环境,安装操作系统,配置虚拟机工具以便于文件传输,安装并配置JDK环境以支持Java程序的运行,设置SSH免密码登录以便于集群节点之间的安全通信,最后还需要为集群中...

    hadoop 集群部署操作

    Hadoop 集群部署操作是指规划、安装和配置 Hadoop 集群的整个过程,以便在生产环境中运行 Hadoop 应用程序。下面是 Hadoop 集群部署操作的详细知识点: 规划 Hadoop 集群 * 规划主机名:bdlinux01、bdlinux02、...

    搭建hadoop集群的全部配置文件

    本压缩包包含的文件是全面的Hadoop集群配置集合,旨在帮助用户顺利构建和管理自己的Hadoop环境。以下将详细解释其中涉及的关键知识点。 1. **Hadoop架构**:Hadoop是由Apache软件基金会开发的一个开源分布式计算...

    hadoop集群安装笔记

    Hadoop集群安装笔记是一篇详细的安装指南,旨在帮助新手快速搭建Hadoop学习环境。以下是该笔记中的重要知识点: Hadoop集群安装目录 在安装Hadoop集群之前,需要准备好安装环境。安装环境包括Java Development Kit...

    hadoop集群安装、配置、维护文档

    安装Hive客户端通常涉及下载Hive发行版,配置`hive-site.xml`以连接到Hadoop集群,设置Hive的元数据存储(如MySQL或Derby数据库),以及添加Hive到系统的PATH环境变量。 5. **迁移namenode节点.txt**: 名Node是...

    Hadoop集群配置文件备份

    在Hadoop集群中,配置文件扮演着至关重要的角色,它们定义了集群的行为、性能优化参数以及故障转移策略等。本文将深入探讨“Hadoop集群配置文件备份”的重要性、步骤和最佳实践。 **1. Hadoop配置文件概述** Hadoop...

    Hadoop集群详细配置文档

    ### Hadoop集群详细配置文档 #### 一、配置概述与需求 本文档旨在提供一个详细的Hadoop集群配置步骤,帮助用户快速搭建一个由三台虚拟机构成的小型Hadoop集群。集群采用的是Cloudera提供的Hadoop 5.13版本,并且...

    配置xen环境及hadoop集群环境的学习笔记

    ### 配置XEN环境及Hadoop集群环境学习笔记 #### XEN虚拟机的安装配置 **XEN** 是一种开源虚拟化技术,允许在一台物理机器上运行多个操作系统实例,这些实例通常被称为“域”(Domains)。XEN 的安装配置涉及到安装...

    Hadoop集群架构搭建分析

    环境准备是指在搭建 Hadoop 集群环境之前需要进行的准备工作,包括设置 IP、设置 hostname、配置 SSH、安装 JDK、安装 Hadoop 等步骤。 设置 IP 需要修改 /etc/sysconfig/network-scripts/ifcfg-eth0 文件,设置...

    hadoop集群配置详解

    总结起来,配置Hadoop集群涉及的主要步骤包括:系统环境准备(如IP和主机名配置)、SSH无密码登录设置、JDK安装及环境变量配置、Hadoop安装和各节点特定配置。每个环节都至关重要,确保了Hadoop集群的稳定运行和高效...

    linux下Hadoop集群环境搭建

    以下将详细介绍如何在一台虚拟机上安装多台Linux服务节点,并构建Hadoop集群环境。 首先,我们需要准备一个基础环境。这通常涉及到在一台主机上安装虚拟机软件,如VirtualBox或VMware,然后创建多个Linux虚拟机实例...

    hadoop2.6集群配置

    #### 一、环境配置 ##### 1.1 服务器环境 1. **IP地址配置**:根据实际情况为每台服务器分配唯一的IP地址,例如: - hadoop140 的 IP 地址为 192.168.50.140 - hadoop141 的 IP 地址为 192.168.50.141 - hadoop...

    Hadoop集群的配置

    在本文中,我们将深入探讨如何配置一个基于Hadoop v1.0的集群,这是一个关键的分布式计算...记住,配置Hadoop集群是一个复杂的过程,需要细心和耐心,但一旦成功,你将拥有一个强大的工具来处理大规模的数据处理任务。

Global site tag (gtag.js) - Google Analytics