`
yu06206
  • 浏览: 111667 次
  • 性别: Icon_minigender_1
  • 来自: 长沙
社区版块
存档分类
最新评论

hadoop环境配置——(集群版)

阅读更多

 

     这个寒假我们根据自己的摸索,我们克服了很多困难,最后终于搭建起了属于我们自己的云,虽然我们的“小云”经常出一些莫名其妙的问题,但是我觉得对我们来说她很有意义,写这篇博客分享一下那些天我们一起搭建的云,希望对那些想要搭建hadoop集群的朋友有帮助!

hadoop集群配置的步骤:

(1)修改机器的IP地址等信息

首先要分配集群机器的IP,给每台机器绑定IP,至于怎么绑定IP大家可以自己查资料,以我们的集群为例,我们总共准备了十台机器,依次将机器的IP地址改为192.168.1.2-192.168.1.11,

然后是确定namenode,secondarynamenode和datanode(namenode机器的性能要好一点,因为它是这个集群的大脑),我们是选定11号机器为namenode,10号机器作为secondarynamenode,其他的为datanaode

(2)配置namenode的hosts文件

命令:sudo gedit /etc/hosts

修改文件如下:

 

127.0.0.1 localhost
127.0.1.1 ubuntu.ubuntu-domain ubuntu
192.168.1.11 master
192.168.1.7 s7
192.168.1.4 s4
192.168.1.2 s2
192.168.1.3 s3
192.168.1.5 s5
192.168.1.6 s6
192.168.1.8 s8
192.168.1.9 s9
192.168.1.10 s10
 
# The following lines are desirable for IPv6 capable hosts
::1     ip6-localhost ip6-loopback
fe00::0 ip6-localnet
ff00::0 ip6-mcastprefix
ff02::1 ip6-allnodes
ff02::2 ip6-allrouters
 

 

(3)配置namenode的masters和slaves文件

 

cd /usr/local/hadoop

命令:sudo gedit conf/masters

修改如下:

master

命令:sudo gedit conf/slaves

 

s2
s3
S4
s5
S6
S7
S8
S9

 

 

 

(4)配置namenode的core-site、mapred-site、hdfs-site文件

命令:sudo gedit conf/core-site.xml

 

 <configuration>   
  <property>   
      <name>fs. default .name</name>   
        <value>hdfs:// master :9000</value>    
    </property>   
   <property>   
         <name>dfs.replication</name>    
         <value>1</value>    
  </property>   
   <property>   
 

 

 


hdfs:// master :9000表示namenode的主机和端口

dfs.replication表示hdfs中文件备份个数。

命令:sudo gedit conf/mapred-site.xml

 

 <configuration>   
        <property>    
           <name>mapred.job.tracker</name>   
            <value> master :9001</value>    
        </property>   
   </configuration>  
 

 

 mapred.job.tracker表示JobTracker的主机和端口;

命令:sudo geidt conf/hdfs-site.xml   

 

property>   
        <name> dfs.name.dir </name>   
        <value> /home/hadoop/hdfs/name </value>   
   </property>   
    
   <property>   
        <name> dfs.data.dir </name>   
        <value> /home/hadoop/hdfs/data </value>   
   </property>   

 

 

dfs.name.dir 表示 NameNode 持久存储名字空间及事务日志的本地文件系统路径。

dfs.data.dir表示 DataNode 存放块数据的本地文件系统路径   

 (5)从namenode远程拷贝上述文件给所有的datanode

拷贝hosts给datanode

命令:scp /etc/hosts hadoop@datanode名:/etc/hosts

拷贝core-site.xml给datanode

命令:scp conf/core-site.xml hadoop@datanode名:/usr/local/hadoop/conf/core-site.xml

 拷贝mapred-site.xml给datanode

命令: scp conf/mapred-site.xml hadoop@datanode名:/usr/local/hadoop/conf/mapred-site.xml

拷贝hdfs-site.xml给datanode

命令:scp conf/hdfs-site.xml hadoop@datanode名:/usr/local/hadoop/conf/hdfs-site.xml

(6)在namenode上生成公钥,远程拷贝到datanode上,实现无验证登陆

 1.  生成公钥

命令: ssh-keygen -t dsa -P "" -f ~/.ssh/id_ r sa    

 2.  远程拷贝

命令: scp  ~/.ssh/id_rsa.pub hadoop@s2  ~/.ssh/    

 3.  data结点上添加到收信任列表

命令: cat  ~/.ssh/id_rsa.pub >>  ~/.ssh/authorizedkeys

(7)集群内节点的连接测试

命令:ssh datanode名

如果能从namenode无验证登录到所有的datanode上,那么说明集群实现了无验证登陆

(8)配置SecondaryNamenode

修改masters 文件,改为 s10

修改hdfs-site.xml 文件

 

<property> 
          <name>dfs.http.address</name> 
          <value> 192.168.1.11 :50070</value> > 
</property>
 

 

(9)集群启动和停止的测试

1.namenode启动之前做一次 block 负载均衡

 命令:sudo gedit  conf/hdfs-site.xml

修改如下

 

<property>  
                <name>dfs.balance.bandwidthPerSec</name>  
                <value>10485760</value>  
                <description> 
                   Specifies the maximum bandwidth that each datanode 		                   can utilize for the balancing purpose in 
                       term of the number of bytes per second. 
                 </description>  
</property>  

 

 

命令:bin/start-balancer.sh

在新的结点上启动datanode 

命令:bin/hadoop-daemon.sh start datanode  

启动tasktracker

命令:bin/hadoop-daemon.sh start tasktracker 

启动SecondaryNameNode

命令: bin/hadoop-daemon.sh start SecoondaryNameNode

启动namenode

命令:bin/start-dfs.sh  

查看namenode的连接情况

命令:bin/hadoop dfsadmin -report

      以上就是集群配置的步骤,由于写这篇博客的时候集群正在修复中,所以没有一步步截图,不能让大家看到集群跑起来的情况,之后我会更新这篇博客,敬请期待!







 

 

分享到:
评论

相关推荐

    hadoop集群配置之————flume安装配置(详细版)

    4. 将flume/conf下的flume-env.sh.template文件修改为flume-env.sh,并配置JAVA_HOME环境变量,指向JDK的安装目录。 入门案例: 1. 创建配置文件:例如使用Flume实时监控整个目录的新文件,自动输出到控制台。 2. ...

    hadoop集群搭建——JDK的安装

    ### hadoop集群搭建——JDK的安装 #### 实验背景及目标 在部署Hadoop集群的过程中,第一步往往是安装Java Development Kit (JDK),因为Hadoop是基于Java开发的,因此在集群上的每个节点都需要安装JDK。本实验旨在...

    hadoop环境配置(单机集群)

    ### Hadoop环境配置详解——单机集群篇 #### 一、引言 随着大数据时代的到来,Hadoop作为处理海量数据的利器,其重要性不言而喻。本文旨在详细介绍如何在虚拟机上安装Hadoop环境,并搭建单机集群。通过图文并茂的...

    hadoop集群配置之———hive安装与配置(超详细)

    Hive的安装过程涉及到了一系列的配置,例如配置Hive的环境变量,指定Hive使用的元数据库(在本例中是MySQL),并进行相应的环境配置和初始化。之后,就可以使用Hive的命令行工具(hive CLI)进行操作,比如创建表、...

    Hadoop快速入门——第四章、zookeeper安装包

    2. 修改"zoo.cfg",根据你的环境配置dataDir、clientPort以及集群配置(如果需要集群部署)。 3. 创建Zookeeper的数据目录,并在其中创建一个名为myid的文件,写入该节点的ID(与zoo.cfg中的server配置对应)。 4. ...

    基于虚拟机集群hadoop2.7.1配置文件

    1. `hadoop-env.sh`:这是Hadoop环境变量配置文件。在这个文件中,我们可以设置Java环境,如`JAVA_HOME`,以及Hadoop进程使用的内存大小等参数。此外,还可以定义其他Hadoop相关的环境变量,比如`HADOOP_OPTS`用于...

    Hadoop2.7.1——NFS部署

    ### Hadoop 2.7.1 —— NFS 部署详解 #### 一、概述 随着大数据技术的发展,Hadoop作为主流的大数据处理框架之一,其分布式存储系统HDFS得到了广泛的应用。为了提高Hadoop集群的数据访问效率,通常会采用网络文件...

    hadoop2.6.4-ha集群搭建

    1. **NameNode HA**:Hadoop 2.0引入了NameNode HA机制,该机制支持两个NameNode实例——一个是处于活动状态的Active NameNode,另一个是处于备用状态的Standby NameNode。Active NameNode负责提供服务,而Standby ...

    基于Ubuntu的Hadoop简易集群安装与配置

    ### 基于Ubuntu的Hadoop简易集群安装与配置知识点详解 #### 一、绪论 ##### 1.1 研究背景及意义 在当前信息化社会中,随着科技的发展与进步,尤其是互联网技术的普及,我们正处在一个数据爆炸的时代。各行各业都在...

    Hadoop权威指南(第四版)——中文版--高清

    6. **Hadoop安装与配置**:书中详细介绍了如何在各种环境下安装和配置Hadoop,包括单机模式、伪分布式模式和完全分布式模式,以及如何调整参数以优化性能。 7. **数据处理与分析**:Hadoop提供了多种工具来处理和...

    完整版大数据云计算课程 Hadoop数据分析平台系列课程 Hadoop 02 实施Hadoop集群 共41页.rar

    1. 配置环境:安装Java环境,设置Hadoop环境变量,配置Hadoop的配置文件如`core-site.xml`, `hdfs-site.xml`, `mapred-site.xml`等。 2. 初始化NameNode:使用`format`命令格式化NameNode,初始化HDFS的元数据。 3. ...

    Hadoop集群搭建部署与MapReduce程序关键点个性化开发.doc

    最后,进行Hadoop集群的分布式环境配置,包括配置Hadoop的配置文件如`core-site.xml`、`hdfs-site.xml`、`yarn-site.xml`和`mapred-site.xml`,确保集群可以正确地运行和交互。 任务2涉及MapReduce程序的开发。首先...

    hadoop权威指南第三版完整版

    - **伪分布式模式**:在一个节点上模拟多节点集群环境,每个Hadoop守护进程都在该节点上以独立的Java进程运行。 - **完全分布式模式**:在多个节点上部署Hadoop集群,是生产环境中最常用的部署方式。 - **监控与管理...

    大数据安全-kerberos技术-hadoop安装包,hadoop版本:hadoop-3.3.4.tar.gz

    在Hadoop环境中,Kerberos可以应用于HDFS、YARN、HBase等组件,保护数据的读写操作、资源调度以及数据库访问。安装Hadoop-3.3.4时,需确保配置Kerberos以实现安全运行。首先,需要设置Kerberos的KDC服务器,并为每个...

    Hadoop2.2.0集群安装

    ### Hadoop2.2.0集群安装:QJM实现HA及Hdfs-site配置详解 #### 一、Hadoop2.2.0完全分布式集群平台安装设置概述 在深入探讨Hadoop2.2.0的安装过程之前,我们需要了解Hadoop的基本架构以及其核心组件——HDFS...

    hadoop-eclipse插件2.8.1版本和2.6.5版本

    - 配置:在Eclipse中,进入“Window” -&gt; “Preferences” -&gt; “Hadoop Map/Reduce”,配置Hadoop集群的连接信息,包括Hadoop的安装路径、 Namenode地址和JobTracker(如果是旧版本)或ResourceManager(如果是YARN...

    两台 Ubuntu 机器实现 Hadoop 集群

    标题中的“两台 Ubuntu 机器实现 Hadoop 集群”指的是在两台运行 Ubuntu 操作系统的计算机上搭建一个 Hadoop 分布式计算环境。Hadoop 是一个由 Apache 基金会开发的开源框架,主要用于处理和存储大量数据。它基于 ...

    hadoop实战——初级部分学习笔记 2

    ### Hadoop实战——初级部分学习笔记 2 #### 一、引言与背景 随着大数据时代的到来,Hadoop作为处理大规模数据集的核心工具之一,其重要性和应用范围日益扩大。本文将基于私塾在线《Hadoop实战——初级部分》的...

Global site tag (gtag.js) - Google Analytics