`

hadoop2.6集群搭建

 
阅读更多
下面是自己在公司的测试服务器上面搭建的HA
#nohup java -jar puv_view.jar >> puv_out.file 2>&1 &

#*/2 * * * * sh /usr/local/puv_jar/exc.sh

卸载centos自带的jdk
yum -y remove java java-1.7.0-openjdk-1.7.0.75-2.5.4.2.el7_0.x86_64
yum -y remove java java-1.7.0-openjdk-headless-1.7.0.75-2.5.4.2.el7_0.x86_64
rpm -qa | grep java
-----------------------------------------------
安装jdk
--------------------------------------------------
/etc/hosts
192.168.1.16 shaobao16
192.168.1.17 shaobao17
192.168.1.18 shaobao18
192.168.1.19 shaobao19

/etc/sysconfig/network
NETWORKING=yes
HOSTNAME=主机名
reboot
-----------------------------------------------------
免密码登陆ssh
(1)ssh-keygen -t r
(2)cp ~/.ssh/id_rsa.pub ~/.ssh/authorized_keys
(3)对每一台机器都要执行
ssh-copy-id -i  shaobao17
ssh-copy-id -i  shaobao18
ssh-copy-id -i  shaobao19
(17,18,19都要对所以机器执行以上部分)
--------------------------------------------------
centos7防火墙
systemctl disable firewalld.service
systemctl stop firewalld.service
----------------------
安装zk
1.ZooKeeper
1.1 zk可以用来保证数据在zk集群之间的数据的事务性一致。
2.如何搭建ZooKeeper服务器集群
2.1 zk服务器集群规模不小于3个节点,要求各服务器之间系统时间要保持一致。
2.2 在hadoop0的/usr/local目录下,解压缩zk....tar.gz,设置环境变量
2.3 在conf目录下,修改文件 vi zoo_sample.cfg  zoo.cfg
2.4 编辑该文件,执行vi zoo.cfg
修改dataDir=/usr/local/zk/data
新增
                    server.0=hadoop0:2888:3888
    server.1=hadoop1:2888:3888
            server.2=hadoop2:2888:3888
2.5 创建文件夹mkdir /usr/local/zk/data
2.6 在data目录下,创建文件myid,值为0
2.7 把zk目录复制到hadoop1和hadoop2中
2.8 把hadoop1中相应的myid的值改为1
    把hadoop2中相应的myid的值改为2
2.9 启动,在三个节点上分别执行命令zkServer.sh start
2.10 检验,在三个节点上分别执行命令zkServer.sh status
-------------------------
搭建Hadoop2.6
1.修改hadoop-env.sh 
  export JAVA_HOME=/usr/local/jdk

2.修改core-site.xml

<configuration>
   <property>
     <name>fs.defaultFS</name>
     <value>hdfs://shaobao</value>
  </property>

  <property>
    <name>hadoop.tmp.dir</name>
    <value>/opt/hadoop-2.6.0/tmp</value>
</property>

<property>
    <name>ha.zookeeper.quorum</name>
    <value>shaobao16:2181,shaobao17:2181,shaobao18:2181</value>
</property>
3.修改hdfs-site.xml
<property>
        <name>dfs.replication</name>
        <value>2</value>
     </property>
     <!--这里是搭建Hadoop联邦-->
  <property>
        <name>dfs.nameservices</name>
        <value>shaobao</value>
   </property>
   <!--配置高可靠-->
   <property>
        <name>dfs.ha.namenodes.shaobao</name>
        <value>shaobao16,shaobao18</value>
    </property>
    <property>
        <name>dfs.namenode.rpc-address.shaobao.shaobao16</name>
        <value>shaobao16:9000</value>
    </property>
    <property>
        <name>dfs.namenode.http-address.shaobao.shaobao16</name>
        <value>shaobao16:50070</value>
    </property>
    <property>
        <name>dfs.namenode.rpc-address.shaobao.shaobao18</name>
        <value>shaobao18:9000</value>
    </property>
   <property>
        <name>dfs.namenode.http-address.shaobao.shaobao18</name>
        <value>shaobao18:50070</value>
    </property>

   <property>
        <name>dfs.namenode.shared.edits.dir</name>
        <value>qjournal://shaobao16:8485/shaobao</value>
    </property>

    <property>
        <name>dfs.ha.automatic-failover.enabled.shaobao</name>
        <value>true</value>
    </property>
    <property>
        <name>dfs.client.failover.proxy.provider.shaobao</name>
        <value>org.apache.hadoop.hdfs.server.namenode.ha.ConfiguredFailoverProxyProvider</value>
    </property>
  <property>
        <name>dfs.journalnode.edits.dir</name>
        <value>/opt/hadoop-2.6.0/tmp/journal</value>
  </property>

  <property>
        <name>dfs.ha.fencing.methods</name>
        <value>sshfence</value>
    </property>

   <property>
        <name>dfs.ha.fencing.ssh.private-key-files</name>
        <value>/root/.ssh/id_rsa</value>
    </property>
   
3.修改mapred-site.xml
   <property>
                <name>mapreduce.framework.name</name>
                <value>yarn</value>
          </property>
         
          <property>
                <name>mapred.child.java.opts</name>
                <value>-Xmx2048m</value>
          </property>
         
4修改slaves
shaobao17
shaobao18
shaobao19

5.描述
   journalnode  shaobao16
   HA shaobao16,shaobao18
   集群名称是shaobao
   slaves shaobao17,shaobao18,shaobao19
  
6.启动journalnode
    sbin/hadoop-daemon.sh start journalnode
7.格式化zk
   bin/hdfs  zkfc  -formatZK
8.格式化,启动namenode
   shaobao16执行
   bin/hdfs  namenode  -format
   sbin/hadoop-daemon.sh  start  namenode
   shaobao18
   bin/hdfs  namenode  -bootstrapStandby
   sbin/hadoop-daemon.sh  start  namenode
9.在win7系统C:\Windows\System32\drivers\etc\hosts添加
192.168.1.16  shaobao16
192.168.1.17  shaobao17
192.168.1.18  shaobao18
192.168.1.19  shaobao19

10.启动zkfc
shaobao16和shaobao18
sbin/hadoop-daemon.sh   start   zkfc

http://shaobao16:50070/dfshealth.html#tab-overview  (shaobao16有standby变成active)
http://shaobao18:50070/dfshealth.html#tab-overview
11修改yarn
<property>
    <name>yarn.resourcemanager.hostname</name>
    <value>shaobao16</value>
</property>
<property>
    <name>yarn.nodemanager.aux-services</name>
    <value>mapreduce_shuffle</value>
</property>
12启动yarn
sbin/start-yarn.sh 
查看  http://shaobao16:8088/ 可以看见resouceMananger的相关配置

hadoop jar hadoop-mapreduce-examples-2.6.0.jar wordcount hdfs://shaobao/sort/a hdfs://shaobao/sort/out3/

当我在此运行2g数据时,rm自动杀死job的线程,报内存溢出。下面对yarn-site.xml进行修改
<property>
    <name>yarn.resourcemanager.hostname</name>
    <value>shaobao16</value>
</property>
<property>
    <name>yarn.nodemanager.aux-services</name>
    <value>mapreduce_shuffle</value>
</property>


<property>
    <name>yarn.nodemanager.resource.memory-mb</name>
    <value>22528</value>
    <discription>每个节点可用内存,单位MB</discription>
  </property>
 
  <property>
    <name>yarn.scheduler.minimum-allocation-mb</name>
    <value>3000</value>
    <discription>单个任务可申请最少内存,默认1024MB</discription>
  </property>
 
  <property>
    <name>yarn.scheduler.maximum-allocation-mb</name>
    <value>16384</value>
    <discription>单个任务可申请最大内存,默认8192MB</discription>
  </property>

  <property>
    <name>yarn.nodemanager.vmem-pmem-ratio</name>
    <value>3</value>
    <discription>每单位的物理内存总量对应的虚拟内存量,默认是2.1,表示每使用1MB的物理内存,最多可以使用2.1MB的虚拟内存总量</discription>
  </property>

分享到:
评论

相关推荐

    hadoop2.6集群搭建手册

    在IT行业中,Hadoop是一个广泛使用的开源框架,...在这个过程中,文档如《hadoop2.6集群搭建手册》是不可或缺的指南,它详细解释了每个步骤并提供了配置示例,对于初学者和经验丰富的管理员来说都是宝贵的参考资料。

    hadoop2.6_windows_x64.zip

    Hive1.2.2版本与Hadoop2.6是兼容的,可以在同一个集群上部署。安装Hive前,需要确保Hadoop已经正常运行。然后下载Hive的Windows版本,配置HIVE_HOME环境变量,并修改hive-site.xml配置文件,指定Hive的metastore...

    hadoop2.6 hadoop.dll+winutils.exe

    通过以上步骤,用户可以在Windows上搭建并运行Hadoop 2.6集群,利用`hadoop.dll`和`winutils.exe`实现Hadoop在非Linux环境下的功能。不过,值得注意的是,尽管可以这样做,但在生产环境中,由于Windows的兼容性和...

    Hadoop2.6集群环境搭建(HDFS HA+YARN)

    在搭建Hadoop 2.6集群环境时,我们需要关注几个关键组件:HDFS(Hadoop Distributed File System)的高可用性(HA)以及YARN(Yet Another Resource Negotiator)。这个过程涉及多台虚拟机的配置,包括安装操作系统...

    Hadoop2.6集群环境搭建,原来4G内存也能任性一次

    ### Hadoop2.6集群环境搭建详解 #### 一、前言 随着大数据技术的不断发展,Hadoop作为处理大规模数据集的重要工具之一,在各行业中得到了广泛的应用。本文将详细介绍如何在资源有限的情况下(例如仅有4G内存的...

    Hadoop 2.6 集群在CentOS 6 上的搭建指南

    内容概要:该文档详细介绍了一步一步地在 CentOs 6 平台上编译安装配置 Hadoop 2.6 的详细步骤,涵盖从编译、安装到运行的全过程指导,并附有问题排查方法及简单例子演示流程。 适合人群:从事大数据领域的IT工作者...

    spark-1.6.0-bin-hadoop2.6.tgz

    总结,Spark-1.6.0-bin-hadoop2.6.tgz是一个完整的Spark发行版,适用于在Linux环境下搭建Spark集群,涵盖多个核心组件,支持多种数据处理场景。通过熟练掌握Spark的安装、配置和使用,可以充分利用其强大功能处理大...

    hadoop2.6_Win_x64-master

    标题中的"hadoop2.6_Win_x64-master"表明这是一个专为Windows 64位系统设计的Hadoop 2.6版本的解决方案。Hadoop是Apache软件基金会的一个开源项目,它提供了一个分布式文件系统(HDFS)和一个计算框架(MapReduce)...

    spark-2.0.0-bin-hadoop2.6.tgz (内含有Pyspark 2.7.12)

    在"spark-2.0.0-bin-hadoop2.6.tgz"压缩包中,包含的不仅是Spark 2.0.0的基础二进制文件,还预配置了对Hadoop 2.6的支持,这意味着用户可以直接在具有Hadoop环境的系统上部署和运行这个版本的Spark,而无需额外的...

    hadoop2.6,window7 64bit,hadoop.dll、winutils.exe文件下载

    Hadoop 2.6是Hadoop的一个重要版本,它包含了多项改进和优化,以提高性能和稳定性。在Windows 7 64位操作系统上配置和运行Hadoop可能会遇到一些挑战,因为Hadoop最初是为Linux设计的。不过,通过一些特定的工具和...

    spark-1.3.1-bin-hadoop2.6.tgz

    Spark-1.3.1-bin-hadoop2.6.tgz是一个针对Linux和Windows系统的安装包,包含了Apache Spark 1.3.1版本以及与Hadoop 2.6兼容的依赖。这个压缩包为用户提供了在本地或集群环境中搭建Spark计算平台的基础。 1. **Spark...

    hadoop2.6,hadoop.dll、winutils.exe下载

    Hadoop 2.6是Hadoop发展过程中的一个重要版本,它带来了许多性能优化和功能改进,旨在提高集群效率和稳定性。本资源提供了适用于64位操作系统的Hadoop相关组件,包括hadoop.dll和winutils.exe,这对于在Windows环境...

    windows下hadoop2.6开发环境搭建过程说明及插件

    在Windows环境下搭建Hadoop2.6开发环境是一个相对复杂的过程,但通过详细的步骤和注意事项,可以有效地完成。这里我们将深入探讨这个过程,并介绍如何解决可能出现的问题。 首先,我们需要下载Hadoop2.6.0的安装包...

    spark-2.3.1-bin-hadoop2.6.tgz

    Spark 2.3.1是Apache Spark的一个稳定版本,它是一个快速、通用且可扩展的大数据处理框架。...通过下载并解压"spark-2.3.1-bin-hadoop2.6.tgz",你可以开始搭建本地或集群的Spark环境,探索这个框架的更多可能性。

    hadoop2.6 ecliplse 插件

    标题提到的"hadoop2.6 eclipse 插件"正是这种插件的一个版本,适用于Hadoop 2.6和Windows 7操作系统。在Windows 7环境下进行Hadoop开发,使用Eclipse插件可以简化配置过程,减少手动设置Hadoop环境的复杂性。 描述...

    hadoop2.6通用winutils和hadoop.dll

    在Hadoop 2.6版本中,其核心组件包括HDFS(Hadoop Distributed File System)和MapReduce,这两个组件使得Hadoop能够在大规模集群上高效地运行大数据处理任务。然而,Hadoop最初是为Linux操作系统设计的,但在...

    Linux环境Hadoop2.6+Hbase1.2集群安装部署

    在构建大数据处理环境时,Linux环境下的Hadoop2.6+Hbase1.2集群安装部署是基础步骤,而Spark分布式集群的搭建则是提升数据处理效率的关键。这些技术的组合使用,可以为大规模数据处理提供高效、可靠的解决方案。 ...

    hadoop高可用集群搭建手册.docx

    本文档主要介绍了Hadoop 2.6高可用集群的搭建过程,包括集群规划、搭建准备、集群搭建和配置等步骤。下面是从中提取的知识点: 1. 集群规划 在规划Hadoop集群时,需要考虑到集群的拓扑结构、节点的角色、网络配置...

    hadoop2.6,window7 32bit,hadoop.dll、winutils.exe等文件

    Hadoop 2.6是Apache Hadoop项目的一个重要版本,它提供了大量的改进和新特性,包括YARN(Yet Another Resource Negotiator)资源管理器,增强了集群资源调度和管理的效率。对于Windows用户来说,尽管Hadoop最初设计...

Global site tag (gtag.js) - Google Analytics