`

hadoop 1.x 2.x 配置

阅读更多

在老师讲的基础上在步骤上进行了些许改进,


总共几步:
1 准备环境搭建
1.1 JDK环境搭建
1.2 免密码配置
1.3 其他
2 Hadoop 集群配置
2.1 配置文件
2.2 名称节点格式化
2.3 运行验证

hadoop 1.x集群安装
假设我们有三台机 规划如下:

l1 192.168.1.10 名称节点
l2 192.168.1.11 数据节点
l3 192.168.1.12 数据节点
     


假设用户均为grid

1.1 第一步:查询本地是否已自带安装JAVA,如果有卸载之(centos 6.5版本会自带openJAVA ,我们这里最好还是安装oracle的java)
      具体命令:rpm -qa|grep java  #查询是否安装了JAVA
                       rpm -e "程序名称"  # 卸载程序 ,java 默认有两个
      第二步:下载并解压JDK包到目录"/usr/jdk",相关命令:wget :获取下载包  tar :解压
                     进入/usr/jdk/bin 目录下运行命令java测试是否成功
                     注:如果出现错误"bash: /usr/java/jdk1.7.0_06/bin/java: /lib/ld-linux.so.2: bad ELF interpreter: No such file or directory" 则运行命令"su -c 'yum install glibc.i686' "安装glibc 即可
1.2 第一步:在每台机器上进入/home/grid目录下,
                    ssh-keygen -t rsa  #生成ssh密钥
                    三台机器均生成成功后,进入机器l1

                    cat id_rsa.pub>>authorized_keys   #自身访问免密码

                    ssh grid@192.168.1.11 'cat /home/grid/.ssh/id_rsa.pub'>>authorized_keys #与192.168.1.11免密码

                    ssh grid@192.168.1.12 'cat /home/grid/.ssh/id_rsa.pub'>>authorized_keys #与192.168.1.12免密码

                scp authorized_keys grid@192.168.1.11:/home/grid/.ssh/authorized_keys  #复制到192.168.11

                    scp authorized_keys grid@192.168.1.12:/home/grid/.ssh/authorized_keys

      第二步:通过机器间 使用ssh grid@ip地址 来测试免密码是否设置成功

                注:ssh 命令会进入到远端机器,测试完毕后记得退出

1.3  第一步 关闭防火墙:service iptables stop  #关闭防火墙当前打开的防火墙

                         chkconfig iptables off   #关闭开机自启动

     第二步:修改hosts文件,增加机器名解析,修改三个机器的/etc/hosts文件,均增加下面几行:

     192.168.1.10  l1

     192.168.1.11  l2

     192.168.1.12  l3

  

2.1 配置6个文件(/usr/home/hadoop-1.2.1/conf):

1 hadoop-env.sh

export JAVA_HOME=/usr/jdk1.7   #修改默认Java_HOME路径            

2 core-site.xml:配置hadoop 默认文件端口和临时目录

<configuration>

        <property>

                <name>fs.default.name</name>

                <value>hdfs://l1:9000</value>  

        </property>

        <property>

                <name>hadoop.tmp.dir</name>

                <value>/home/grid/hadoop/tmp</value>

        </property>

</configuration>


 

3 hdfs-site.xml: 配置数据复制份数


 

<configuration>

        <property>

                <name>dfs.replication</name>

                <value>2</value>

        </property>

</configuration>



 

4 mapred-site.xml: 配置jobtracker端口


 

<configuration>

        <property>

                <name>mapred.job.tracker</name>

                <value>l1:9001</value>

        </property>

</configuration>

5 master:配置主节点名称

l1

6 slaves:配置从节点名称

l2

l3

配置完成后,将hadoop 目录复制到每个机器上

2.2 第一步:运行命令 /home/grid/hadoop-1.2.1/bin/hadoop  namenode -format格式化名称节点,注意看日志是否成功

     第二步:执行/home/grid/hadoop-1.2.1/bin/start-all.sh :启动Hadoop所有模块

2.3 在主节点机器上执行/usr/jdk1.7/bin/jps 看是否有进程 JobTracker namenode secondaryNamenode

      在从节点机器上执行/usr/jdk1.7/bin/jps 看是否有进程 datanode tasktracker


 

         http://192.168.1.10:50030 (MapReduce的页面)

          http://192.168.1.10:50070  (HDFS的页面)

       如果都可以打开,说明安装成功


 

2.x安装:

2.x 安装和1.x 基本一致,只有下面的地方不一致

1.3 hadoop文件解压后,需要在hadoop根目录下建立data和name文件夹 , 后面配置的地方要用到

2.1 配置6个文件(/usr/home/hadoop-2.x/etc/hadoop):

1 hadoop-env.sh同hadoop1.x一样

2 mapred-env.sh 仍然是改JAVA_HOME路径

3 yarn-env.sh 仍然是改JAVA_HOME路径

4 core-site.xml

<configuration>

        <property>

                <name>fs.defaultFS</name>

                <value>hdfs://l3:9000</value>

        </property>

        <property>

                <name>io.file.buffer.size</name>

                <value>131072</value>

        </property>

        <property>

                <name>hadoop.tmp.dir</name>

                <value>file:/home/grid/hadoop-2.2.0/tmp</value>

        </property>

        <property>

                <name>hadoop.proxyuser.hduser.hosts</name>

                <value>*</value>

        </property>

        <property>

                <name>hadoop.proxyuser.hduser.groups</name>

                <value>*</value>

        </property>

</configuration>

5 hdfs-site.xml

<configuration>

        <property>

                <name>dfs.namenode.secondary.http-address</name>

                <value>l3:9001</value>

        </property>

        <property>

                <name>dfs.namenode.name.dir</name>

                <value>file:/home/grid/hadoop-2.2.0/name</value>

        </property>

        <property>

                <name>dfs.datanode.data.dir</name>

                <value>file:/home/grid/hadoop-2.2.0/data</value>

        </property>

        <property>

                <name>dfs.replication</name>

                <value>2</value>

        </property>

        <property>

                <name>dfs.webhdfs.enabled</name>

                <value>true</value>

        </property>

</configuration>

 

6 mapred-site.xml

<configuration>

 

        <property>

                <name>mapreduce.framework.name</name>

                <value>yarn</value>

        </property>

        <property>

                <name>mapreduce.jobhistory.address</name>

                <value>l3:10020</value>

        </property>

        <property>

                <name>mapreduce.jobhistory.webapp.address</name>

                <value>l3:19888</value>

        </property>

</configuration>

7 yarn-site.xml

<configuration>

 

        <property>

                <name>yarn.nodemanager.aux-services</name>

                <value>mapreduce_shuffle</value>

        </property>

        <property>

                <name>yarn.nodemanager.aux-services.mapreduce.shuffle.class</name>

                <value>org.apache.hadoop.mapred.ShuffleHandler</value>

        </property>

        <property>

                <name>yarn.resourcemanager.address</name>

                <value>l3:8032</value>

        </property>

        <property>

                <name>yarn.resourcemanager.scheduler.address</name>

                <value>l3:8030</value>

        </property>

        <property>

                <name>yarn.resourcemanager.resource-tracker.address</name>

                <value>l3:8031</value>

        </property>

        <property>

                <name>yarn.resourcemanager.admin.address</name>

                <value>l3:8033</value>

        </property>

        <property>

                <name>yarn.resourcemanager.webapp.address</name>

                <value>l3:8088</value>

        </property>

</configuration>

8 slaves:

l2

l3

2.2 第一步:运行命令 /home/grid/hadoop-2.x/bin/hdfs  namenode -format格式化名称节点,注意看日志是否成功

     第二步:执行/home/grid/hadoop-2.x/bin/start-dfs.sh :启动hdfs模块

                  执行/home/grid/hadoop-2.x/bin/start-yarn.sh :启动yarn模块


 

2.3 在主节点机器上执行/usr/jdk1.7/bin/jps 看是否有进程 resourcemanager namenode secondaryNamenode

      在从节点机器上执行/usr/jdk1.7/bin/jps 看是否有进程 datanode nodemanager


 

         http://192.168.1.10:8088 (ResourceManager管理界面)

          http://192.168.1.10:50070  (nomenode的页面)

       如果都可以打开,说明安装成功

分享到:
评论

相关推荐

    hadoop1.x与hadoop2.x配置异同

    在探讨Hadoop1.x与Hadoop2.x配置的异同之前,我们首先简要回顾一下GridGain In-Memory HDFS的特性,这是基于行业首个高性能双模式内存文件系统,完全兼容HDFS。GridGain FileSystem(GGFS)作为Hadoop HDFS的即插即...

    Hadoop3.x系统文档

    文档中对于Hadoop 3.x常用配置与Hadoop 2.x的对比,提供了一系列常见配置项的解释,例如: - 如何指定Hadoop临时路径,这关系到Hadoop执行过程中临时文件的存放。 - dfs.blocksize可以使用的单位,文件块大小是HDFS...

    hadoop2.X新特性介绍

    ### Hadoop2.X 新特性详解 #### Hadoop1.0 的局限性 Hadoop1.0作为初代的大数据处理框架,在数据存储和处理方面取得了显著成就,但也暴露出了一系列问题,主要包括: - **HDFS(Hadoop Distributed File System)...

    win32win64hadoop2.7.x.hadoop.dll.bin

    标题“win32win64hadoop2.7.x.hadoop.dll.bin”暗示了这是一个与Hadoop 2.7.x版本相关的二进制文件,适用于32位和64位的Windows操作系统。描述中提到,这些文件是用于在Windows环境下部署Hadoop时必需的组件,并且在...

    hadoop3.x盘地址及官方其他版本下载地址.rar

    Hadoop 3.x系列是Hadoop的主要版本之一,相比之前的Hadoop 2.x,它引入了诸多改进和优化,提升了整体的存储性能和计算效率。在本文中,我们将深入探讨Hadoop 3.x的关键特性、优化之处以及如何获取和安装这个版本。 ...

    Hadoop 2.x与3.x 22点比较,Hadoop 3.x比2.x的改进

    1.Hadoop3.x通过什么方式来容错? 2.Hadoop3.x存储开销减少了多少? 3.Hadoop3.x MR API是否兼容hadoop1.x? 一、目的 在这篇文章中,我们将讨论Hadoop 2.x与Hadoop 3.x之间的比较。 Hadoop3版本中添加了哪些新功能...

    初识Hadoop 2.x.pdf

    ### Hadoop 2.x 入门知识点概览 #### 一、大数据应用发展前景 随着信息技术的飞速发展,数据量呈爆炸式增长,这不仅带来了挑战也孕育着新的机遇。根据2015年中国(深圳)IT领袖峰会的讨论,大数据正逐渐成为推动...

    适合hadoop2.9.* 以及 hadoop2.7.* 的winutils.exe_hadoop.dll 配置文件

    1. **解压缩**: 首先,你需要根据你的Hadoop版本选择合适的压缩包,例如,如果你使用的是Hadoop 2.9.x,就解压缩`hadoop2.9配置文件.rar`。 2. **复制文件**: 解压后,你会找到`winutils.exe`和`hadoop.dll`。将这两...

    Hadoop2.X集群安装与配置

    本文将详细介绍如何在三节点环境下安装和配置Hadoop 2.x 集群。 一、环境准备 在开始Hadoop的安装前,你需要确保你的硬件环境满足基本需求,包括足够的内存、硬盘空间以及至少三台服务器或虚拟机。每台节点应安装...

    hadoop2.x文档

    1. **Hadoop 2.x 平台基础:** - Hadoop 2.x 的架构原理及组件介绍(如HDFS、YARN等)。 - Hadoop 集群的搭建与管理。 - MapReduce 工作原理及实践应用。 2. **SQL on Hadoop 应用:** - Hive 的安装配置与使用...

    hadoop3.x笔记.docx

    Hadoop 是一个基于分布式存储的大数据处理框架,本文档将详细介绍 Hadoop 3.x 的配置和底层原理,从零搭建集群以及解决遇到的问题,通过图形化的方式更好地理解 Hadoop 的作用。 一、HDFS 组成 HDFS(Hadoop ...

    hadoop2.x主要配置

    包含了hadoop配置文件core-site.xml、hdfs-site.xml、mapred-site.xml、yarn-site.xml

    Apache Hadoop2.x 安装入门详解 PDF

    1. YARN(Yet Another Resource Negotiator):Hadoop 2.x引入了YARN,取代了旧版中的JobTracker,负责集群资源管理和调度,提高了系统的可扩展性和资源利用率。 2. HDFS Federation:通过增加多个NameNode,解决了...

    hadoop3.x带snappy(可用于windows本地开发)

    【标题】"hadoop3.x带snappy(可用于windows本地开发)"所涉及的知识点主要集中在Hadoop 3.0版本以及Snappy压缩算法在Windows环境下的应用。Hadoop是一个开源的大数据处理框架,由Apache软件基金会开发,它使得在...

    hadoop2.x 安装文档

    ### Hadoop 2.x 安装与配置详解 #### 一、准备工作 在开始Hadoop 2.x集群的搭建之前,需要确保以下条件已经满足: 1. **操作系统环境**: 所有的服务器节点均应安装Linux操作系统。 2. **Java Development Kit ...

    Hadoop 2.x单节点部署学习。

    此外,`mapreduce.jobtracker.address`在旧版Hadoop中是必要的,但在Hadoop 2.x中已被替换为YARN相关配置。 在部署Hadoop 2.x单节点环境时,你需要先下载并安装Hadoop二进制包,然后根据你的硬件和需求调整上述配置...

    hadoop 2.X 伪分布式配置文件

    1. **Hadoop 2.x架构**:Hadoop 2.x引入了YARN(Yet Another Resource Negotiator),作为资源管理器,替代了Hadoop 1.x中的JobTracker。YARN将任务调度和资源管理分离,提高了系统的可扩展性和灵活性。 2. **伪...

    Hadoop2.x HA环境搭建

    ### Hadoop2.x HA环境搭建知识点详解 #### 一、HA2.0集群搭建与测试 **准备工作:** 1. **停掉之前的服务:** - 在搭建Hadoop2.x HA集群之前,需要确保所有相关的服务都已经停止运行,避免与新搭建的集群产生...

    hadoop.2.7.x.zip

    2. **设置环境变量**: 配置 `HADOOP_HOME` 环境变量指向 Hadoop 的安装目录,并将 `%HADOOP_HOME%\bin` 添加到 `PATH` 变量,确保可以访问 `hadoop` 和 `winutils.exe` 等命令。 3. **配置 Hadoop**: 修改 `hadoop/...

Global site tag (gtag.js) - Google Analytics