`
yy9991818
  • 浏览: 4078 次
  • 性别: Icon_minigender_1
  • 来自: 南京
社区版块
存档分类
最新评论

Hadoop学习之三 多节点集群配置

 
阅读更多

Hadoop学习之三  多节点集群配置

hadoop 集群搭建

1, 节点配置
 节点名     主机名                                   ip                安装的软件                      进程
master      zhaosy-HP-Compaq-Pro-6380-MT         109.123.100.83         jdk_1.8.0_65, hadoop_2.7.3     namenode, resourcemanager
salver1      tizen-HP-Compaq-Pro-6380-MT          109.123.121.193       jdk_1.8.0_65, hadoop_2.7.3     datanode, secondnamenode
salver2      OCI-Server                           109.123.100.134       jdk_1.8.0_65, hadoop_2.7.3     datanode

2 免密码登陆配置
  在将作为master节点的主机 109.123.100.83上执行命令
      ssh-keygen -t rsa -P '' -f ~/.ssh/id_rsa
   master节点的主机~/.ssh/id_rsa目录下将会生成一公钥id_rsa.pub, 一私钥id_rsa;
   使用如下命令将公钥拷贝其他salver节点上
   ssh-copy-id zhaosy-HP-Compaq-Pro-6380-MT   点击yes, 输入主机109.123.100.83登陆命令   主机109.123.100.83目录~/.ssh/id_rsa/下会生成authorized_keys 及known_hosts
     此时在主机zhaosy-HP-Compaq-Pro-6380-MT使用ssh zhaosy-HP-Compaq-Pro-6380-MT 可以免密码登陆 zhaosy-HP-Compaq-Pro-6380-MT 主机, 表示zhaosy-HP-Compaq-Pro-6380-MT免密码登陆配置成功
   ssh-cop-id tizen-HP-Compaq-Pro-6380-MT     点击yes, 输入主机109.123.121.193登陆命令  主机109.123.121.193目录~/.ssh/id_rsa/下会生成authorized_keys
     此时在主机zhaosy-HP-Compaq-Pro-6380-MT使用ssh tizen-HP-Compaq-Pro-6380-MT 可以免密码登陆 tizen-HP-Compaq-Pro-6380-MT  主机, 表示tizen-HP-Compaq-Pro-6380-MT 免密码登陆配置成功
   ssh-cop-id tizen-HP-Compaq-Pro-6380-MT     点击yes, 输入主机109.123.121.193登陆命令  主机109.123.121.193目录~/.ssh/id_rsa/下会生成authorized_keys
     此时在主机zhaosy-HP-Compaq-Pro-6380-MT使用ssh  OCI-Server 可以免密码登陆 OCI-Server 主机, 表示 OCI-Server 免密码登陆配置成功

3  安装配置JDK及hadoop
    在三台主机上均安装相同版本的jdk及hadoop并配置相同的安装目录
4  hadoop配置文件修改
   1)修改master节点的${HADOOP_HOME}/etc/hadoop/core-site.xml文件为
  <configuration>
      <property>
          <!-- 指定HDFS(namenode)的通信地址 -->
          <name>fs.defaultFS</name>    
          <value>hdfs://localhost:9000</value>
      </property>
      <property>
          <!-- 指定hadoop运行时产生文件的存储路径 -->
          <name>hadoop.tmp.dir</name>
          <value>/home/yangyong/SoftWare/BigData/Hadoop/tmp</value>
      </property>
  2)修改master节点的${HADOOP_HOME}/etc/hadoop/hdfs-site.xml为
<configuration>
    <property>
      <!-- 设置namenode的http通讯地址 -->
        <name>dfs.namenode.http-address</name>
        <value>109.123.100.83:50070</value>
    </property>
    <property>
     <!-- 设置secondarynamenode的http通讯地址 -->
        <name>dfs.namenode.secondary.http-address</name>
        <value>109.123.121.193:50090</value>
    </property>
    <property>
     <!-- 设置namenode存放的路径 -->
        <name>dfs.namenode.name.dir</name>
        <value>/home/yangyong/SotrWare/BigData/Hadoop/namenode</value>
    </property>
    <property>
     <!-- 设置datanode存放的路径 -->
        <name>dfs.datanode.data.dir</name>
        <value>/home/yangyong/SotrWare/BigData/Hadoop/datanode</value>
    </property>
    <property>
     <!-- 设置hdfs副本数量 -->
        <name>dfs.replication</name>
        <value>2</value>
    </property>
</configuration>
3)修改master节点的${HADOOP_HOME}/etc/hadoop/mapred-site.xml为
  <configuration>
        <property>
           <!-- 通知框架MR使用YARN -->
           <name>mapreduce.framework.name</name>
           <value>yarn</value>
       </property>
     </configuration>
 
4)修改master节点的${HADOOP_HOME}/etc/hadoop/yarn-site.xml为

<configuration>

<!-- Site specific YARN configuration properties -->
    <property>
        <!-- 设置 resourcemanager 在哪个节点-->
        <name>yarn.resourcemanager.hostname</name>
        <value>109.123.100.83</value>
    </property>
    <!-- 设置 resourcemanager 的http访问地址-->
    <property>
        <name>yarn.resourcemanager.webapp.address</name>
        <value>109.123.100.83:8088</value>
    </property>

    <property>
         <!-- reducer取数据的方式是mapreduce_shuffle -->
        <name>yarn.nodemanager.aux-services</name>
        <value>mapreduce_shuffle</value>
    </property>
    <property>
        <!--表示该节点上YARN可使用的物理内存总量,默认是8192(MB),注意,如果你的节点内存资源不够8GB,则需要调减小这个值,而YARN不会智能的探测节点的物理内存总量。  MB为单位-->
        <name>yarn.nodemanager.resource.memory-mb</name>
        <value>20480</value>
    </property>
    <property>
        <!--nodemanager可供分配的最小内存  MB为单位-->
        <name>yarn.nodemanager.minmun-allocation-mb</name>
        <value>5120</value>
    </property>
    <property>
        <!--单个任务可申请的最多物理内存量,默认是8192(MB)  MB为单位-->
        <name>yarn.scheduler.maximum-allocation-mb</name>
        <value>5120</value>
    </property>
    <property>
        <name>yarn.nodemanager.aux-services.mapreduce.shuffle.class</name>
        <value>org.apache.hadoop.mapred.ShuffleHandler</value>
    </property>
    <property>
 <!--用于磁盘空间检查,低于某一值时,会导致mapreduce无法正常运行-->
 <name>yarn.nodemanager.disk-health-checker.max-disk-utilization-per-disk-percentage</name>
 <value>99</value>
    </property>
</configuration>

5)新建master文件   (此步在2.7.3已无效,可忽略此步)
   新建文件${HADOOP_HOME}/etc/hadoop/master, 内容为secondary namenode 的主机名或IP,  保险起见,用IP较好
         109.123.121.193
6)新建slaves文件(仅在master节点配置)
  新建文件${HADOOP_HOME}/etc/hadoop/slaves, 内容为slaves主机名或IP,保险起见,用IP较好
       109.123.121.193
       109.123.120.200
7)配置hosts
        在/etc/hosts文件中增加
       
         109.123.100.83   zhaosy-hp-compaq-pro-6380-mt
         109.123.120.200  oci-server
         109.123.121.193  tizen-HP-Compaq-Pro-6380-MT
    
      注意:ubuntu机器中会存在127.0.1.1  的配置,此配置一定要删除,否则将导致第六步中 URL无法打开

8)配置slaves节点
    在每个slaves节点,重复执行1)->6)
    此时有两种操作, i: 使用scp将master节点上的hadoop配置拷贝至slavers节点, 切记, 配置的环境变量每台slaves均要生效
                                     ii: 手动每个slaves节点重复操作
9)master, slavers节点的时间要同步,否则后续运行时会因时间不同步,导致程序无法执行  (  sudo date -s "2017-06-20 17:10:30")

5 master节点启动
    1)首次启动,执行格式化命令  ${HADOOP_HOME}/bin/hdfs  namenode -format
        2)启动dfs    执行${HADOOP_HOME}/sbin/start-dfs.sh   
             109.123.121.193: starting datanode, logging to /home/yangyong/SoftWare/BigData/Hadoop/hadoop-2.7.3/logs/hadoop-yangyong-datanode-tizen-HP-Compaq-Pro-6380-MT.out
             109.123.120.200: starting datanode, logging to /home/yangyong/SoftWare/BigData/Hadoop/hadoop-2.7.3/logs/hadoop-yangyong-datanode-OCI-Server.out
            Starting secondary namenodes [tizen-HP-Compaq-Pro-6380-MT]
            tizen-HP-Compaq-Pro-6380-MT: starting secondarynamenode, logging to /home/yangyong/SoftWare/BigData/Hadoop/hadoop-2.7.3/logs/hadoop-yangyong-secondarynamenode-tizen-HP-Compaq-Pro-6380-MT.out

        3)启动yarn , 执行执行${HADOOP_HOME}/sbin/start-yarn.sh
               109.123.121.193: starting nodemanager, logging to /home/yangyong/SoftWare/BigData/Hadoop/hadoop-2.7.3/logs/yarn-yangyong-nodemanager-tizen-HP-Compaq-Pro-6380-MT.out
               109.123.120.200: starting nodemanager, logging to /home/yangyong/SoftWare/BigData/Hadoop/hadoop-2.7.3/logs/yarn-yangyong-nodemanager-OCI-Server.out

        4)master执行 jps
              20081 ResourceManager
             19750 NameNode
             20344 Jps

       5)salver1执行jps
      

       5850 SecondaryNameNode
       5707 DataNode
       6139 Jps
       6015 NodeManager
    6)salver2执行jps
   
       59091 Jps
       58566 DataNode
       58839 NodeManager
6 验证
   1)浏览器中输入http://109.123.100.83:50070
      
  

 

   2)浏览器中输入http://109.123.100.83:8088
     
          

   图中一定要有数据 才表示配置成功

此时,若5 使用jps检查各节点均正常, 而6无法显示,使用命令./bin/hdfs dfsadmin -report,根据输出的info排错
7 测试
      1)本地创建一个文件words.txt, 内容如下
          Hello World!
          Hello China!
          Hello Jim
         Hello Tom
         The People's Republic Of China!
         上传words.txt至HDFS根目录 ${HADOOP_HOME}/bin/hadoop fs -put words.txt  /
         使用命令${HADOOP_HOME}bin/hadoop fs -ls / 可查看到相应的文件
         Found 1 items
         -rw-r--r--   2 yangyong supergroup         57 2017-06-20 17:44 /words.txt

         此时可在http://109.123.100.83:50070/explorer.html#/  查看到上传的文件

      2)${HADOOP_HOME}/bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.3.jar wordcount /words.txt  /output_wordcount

       yangyong@zhaosy-HP-Compaq-Pro-6380-MT:~/SoftWare/BigData/Hadoop/hadoop-2.7.3$ bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.3.jar wordcount /words.txt  /output_wordcount
17/06/20 17:19:46 INFO client.RMProxy: Connecting to ResourceManager at /109.123.100.83:8032
17/06/20 17:19:47 INFO input.FileInputFormat: Total input paths to process : 1
17/06/20 17:19:48 INFO mapreduce.JobSubmitter: number of splits:1
17/06/20 17:19:49 INFO mapreduce.JobSubmitter: Submitting tokens for job: job_1497947875315_0019
17/06/20 17:19:49 INFO impl.YarnClientImpl: Submitted application application_1497947875315_0019
17/06/20 17:19:49 INFO mapreduce.Job: The url to track the job: http://zhaosy-hp-compaq-pro-6380-mt:8088/proxy/application_1497947875315_0019/
17/06/20 17:19:49 INFO mapreduce.Job: Running job: job_1497947875315_0019
17/06/20 17:19:54 INFO mapreduce.Job: Job job_1497947875315_0019 running in uber mode : false
17/06/20 17:19:54 INFO mapreduce.Job:  map 0% reduce 0%
17/06/20 17:19:58 INFO mapreduce.Job:  map 100% reduce 0%
17/06/20 17:20:02 INFO mapreduce.Job:  map 100% reduce 100%
17/06/20 17:20:04 INFO mapreduce.Job: Job job_1497947875315_0019 completed successfully
17/06/20 17:20:04 INFO mapreduce.Job: Counters: 49
        File System Counters
                FILE: Number of bytes read=74
                FILE: Number of bytes written=238345
                FILE: Number of read operations=0
                FILE: Number of large read operations=0
                FILE: Number of write operations=0
                HDFS: Number of bytes read=158
                HDFS: Number of bytes written=44
                HDFS: Number of read operations=6
                HDFS: Number of large read operations=0
                HDFS: Number of write operations=2
        Job Counters
                Launched map tasks=1
                Launched reduce tasks=1
                Data-local map tasks=1
                Total time spent by all maps in occupied slots (ms)=1721
                Total time spent by all reduces in occupied slots (ms)=1933
                Total time spent by all map tasks (ms)=1721
                Total time spent by all reduce tasks (ms)=1933
                Total vcore-milliseconds taken by all map tasks=1721
                Total vcore-milliseconds taken by all reduce tasks=1933
                Total megabyte-milliseconds taken by all map tasks=1762304
                Total megabyte-milliseconds taken by all reduce tasks=1979392
        Map-Reduce Framework
                Map input records=5
                Map output records=10
                Map output bytes=97
                Map output materialized bytes=74
                Input split bytes=101
                Combine input records=10
                Combine output records=6
                Reduce input groups=6
                Reduce shuffle bytes=74
                Reduce input records=6
                Reduce output records=6
                Spilled Records=12
                Shuffled Maps =1
                Failed Shuffles=0
                Merged Map outputs=1
                GC time elapsed (ms)=80
                CPU time spent (ms)=1070
                Physical memory (bytes) snapshot=440082432
                Virtual memory (bytes) snapshot=3844157440
                Total committed heap usage (bytes)=291504128
        Shuffle Errors
                BAD_ID=0
                CONNECTION=0
                IO_ERROR=0
                WRONG_LENGTH=0
                WRONG_MAP=0
                WRONG_REDUCE=0
        File Input Format Counters
                Bytes Read=57
        File Output Format Counters
                Bytes Written=44


yangyong@zhaosy-HP-Compaq-Pro-6380-MT:~/SoftWare/BigData/Hadoop/hadoop-2.7.3$ ./bin/hadoop fs -cat  /output_wordcount/*
Bye     1
Hadoop  2
Hello   4
Jack    1
Tom     1
World   1

8 关闭
${HADOOP_HOME}//sbin/start-dfs.sh
${HADOOP_HOME}//sbin/start-yarn.sh

 

 

分享到:
评论

相关推荐

    Hadoop和Spark多节点集群搭建:从入门到进阶0基础!!易懂!!

    Hadoop和Spark多节点集群搭建Hadoop和Spark多节点集群搭建Hadoop和Spark多节点集群搭建Hadoop和Spark多节点集群搭建Hadoop和Spark多节点集群搭建Hadoop和Spark多节点集群搭建Hadoop和Spark多节点集群搭建Hadoop和...

    大数据之hadoop多节点集群搭建.docx

    大数据之 Hadoop 多节点集群搭建 本文将详细介绍如何搭建一个多节点 Hadoop 集群,包括集群架构设计、虚拟机配置、节点设置等内容。 一、集群架构设计 在搭建 Hadoop 集群之前,需要设计集群的架构。本文中的示例...

    hadoop+hbase+zookeeper集群配置流程及文件

    提供的文档`hadoop_zookeeper_hbase集群配置.docx`应包含详细的步骤和配置示例,而`配置文件.rar`则可能包含了预设的配置模板,可以作为配置参考。在实际操作时,务必根据具体环境调整配置,确保所有节点之间的网络...

    Centos7.0系统配置Hadoop集群(以3节点为例)

    Centos7.0系统下配置Hadoop集群(以3节点为例)超详细过程

    hadoop 2.8.2 3节点集群安装及native编译

    Hadoop 2.8.2 三节点集群安装及 native 编译 本文详细介绍了在 RHEL 6.7 操作系统上安装 Hadoop 2.8.2 三节点...本文详细介绍了 Hadoop 2.8.2 三节点集群的安装步骤和环境准备,适合初学者搭建大数据基础学习环境。

    hadoop2.6集群配置

    ### Hadoop 2.6 集群配置详解 ...总结,Hadoop 2.6 集群配置涉及多个环节,从环境准备、基础配置到高级特性(如HA)的启用都需要仔细规划和实施。通过以上步骤,可以构建出一个稳定且功能齐全的Hadoop集群。

    CentOS6.5x64下安装19实体节点Hadoop2.2.0集群配置指南

    资源名称:CentOS 6.5 x64下安装19实体节点Hadoop 2.2.0集群配置指南内容简介: CentOS 6.5 x64下安装19实体节点Hadoop 2.2.0集群配置指南主要讲述的是CentOS 6.5 x64下安装19实体节点Hadoop 2.2.0集群配置指南;...

    HadoopHA集群配置文件

    配置Hadoop HA集群需要对这些文件进行精确调整,以实现命名节点的自动故障切换、保证数据的安全性和一致性,以及优化资源分配和任务调度。在实际操作中,还需要关注其他配置,比如Zookeeper的设置(用于协调NN的故障...

    hadoop (多节点)环境搭建

    本文将详细介绍如何搭建多节点 Hadoop 环境,包括安装 Ubuntu 操作系统、安装 Hadoop 软件、配置 SSH 无密码登录、配置 Hadoop 集群等步骤。 一、安装 Ubuntu 操作系统 在开始搭建 Hadoop 环境之前,需要安装 ...

    Hadoop 2.x单节点部署学习。

    在IT领域,Hadoop是一个广泛使用的开源大...这将帮助你更好地掌握Hadoop的工作原理,为后续的多节点集群部署和大数据处理打下坚实基础。通过实践和不断学习,你将能够充分利用Hadoop的强大功能,解决复杂的大数据问题。

    Hadoop分布式集群配置指南

    Hadoop分布式集群配置是大数据处理的关键步骤之一,本指南将指导读者成功配置一个由5台计算机构成的Hadoop集群,并成功运行wordcount处理大型数据(大于50G)。 一、Hadoop集群架构简介 Hadoop集群由一个Master...

    hadoop集群配置详解

    Hadoop 集群配置是一个复杂的过程,涉及到多台服务器之间的通信和数据存储。在这个详解中,我们将深入理解如何在Fedora和Ubuntu系统上搭建一个Hadoop集群。 首先,为了确保集群中的节点能够相互识别,我们需要配置...

    Hadoop集群配置文件备份

    本文将深入探讨“Hadoop集群配置文件备份”的重要性、步骤和最佳实践。 **1. Hadoop配置文件概述** Hadoop的配置文件主要包括`core-site.xml`、`hdfs-site.xml`、`yarn-site.xml`、`mapred-site.xml`等,这些XML...

    Hadoop集群配置及MapReduce开发手册

    总的来说,《Hadoop集群配置及MapReduce开发手册》是一本全面、深入的实践指南,对于想要学习和掌握Hadoop及其相关技术的开发者来说,具有极高的参考价值。通过深入阅读和实践,读者将能够熟练地部署和管理Hadoop...

    利用ansible 自动 安装Hadoop 集群

    Hadoop作为大数据处理的核心组件,包括HDFS(Hadoop Distributed File System)和MapReduce等模块,构建一个Hadoop集群通常涉及多台服务器的配置、软件安装、服务启动和集群配置。通过Ansible,我们可以简化这个过程...

    多节点Hadoop配置.doc

    本教程的主要目标是实现更复杂一些的Hadoop安装,即构建一个由两台Ubuntu服务器组成的多节点集群。 **配置步骤:** 1. **网络设置**:确保所有节点之间的网络连接正常,可以互相访问。配置正确的主机名和IP地址,...

    作业二-Mac版Hadoop三节点集群搭建.docx

    搭建Mac版Hadoop三节点集群涉及多个步骤,包括软件安装、配置、网络设置以及集群验证。通过这个过程,你不仅可以学习到Hadoop的基础知识,还能深入了解分布式系统的工作原理。在实际操作中,务必细心并耐心地检查每...

    hadoop集群配置

    hadoop集群配置 Hadoop集群配置是大数据处理和存储的核心组件。它允许用户在分布式环境中存储和处理大量数据。为了正确地配置Hadoop集群,需要完成以下几个步骤: 1. 安装JDK:JDK是Hadoop的必备组件,因为Hadoop...

    安装Hadoop(单机版和集群)步骤

    3. **安装rsync**:rsync是一个用于文件同步的工具,对于Hadoop集群配置非常重要。使用`sudo apt-get install rsync`命令进行安装。 4. **配置SSH免密码登录**: - 检查`.ssh`目录是否存在,如果不存在,使用`...

Global site tag (gtag.js) - Google Analytics