`

hadoop 1.x 2.x 配置

阅读更多

在老师讲的基础上在步骤上进行了些许改进,


总共几步:
1 准备环境搭建
1.1 JDK环境搭建
1.2 免密码配置
1.3 其他
2 Hadoop 集群配置
2.1 配置文件
2.2 名称节点格式化
2.3 运行验证

hadoop 1.x集群安装
假设我们有三台机 规划如下:

l1 192.168.1.10 名称节点
l2 192.168.1.11 数据节点
l3 192.168.1.12 数据节点
     


假设用户均为grid

1.1 第一步:查询本地是否已自带安装JAVA,如果有卸载之(centos 6.5版本会自带openJAVA ,我们这里最好还是安装oracle的java)
      具体命令:rpm -qa|grep java  #查询是否安装了JAVA
                       rpm -e "程序名称"  # 卸载程序 ,java 默认有两个
      第二步:下载并解压JDK包到目录"/usr/jdk",相关命令:wget :获取下载包  tar :解压
                     进入/usr/jdk/bin 目录下运行命令java测试是否成功
                     注:如果出现错误"bash: /usr/java/jdk1.7.0_06/bin/java: /lib/ld-linux.so.2: bad ELF interpreter: No such file or directory" 则运行命令"su -c 'yum install glibc.i686' "安装glibc 即可
1.2 第一步:在每台机器上进入/home/grid目录下,
                    ssh-keygen -t rsa  #生成ssh密钥
                    三台机器均生成成功后,进入机器l1

                    cat id_rsa.pub>>authorized_keys   #自身访问免密码

                    ssh grid@192.168.1.11 'cat /home/grid/.ssh/id_rsa.pub'>>authorized_keys #与192.168.1.11免密码

                    ssh grid@192.168.1.12 'cat /home/grid/.ssh/id_rsa.pub'>>authorized_keys #与192.168.1.12免密码

                scp authorized_keys grid@192.168.1.11:/home/grid/.ssh/authorized_keys  #复制到192.168.11

                    scp authorized_keys grid@192.168.1.12:/home/grid/.ssh/authorized_keys

      第二步:通过机器间 使用ssh grid@ip地址 来测试免密码是否设置成功

                注:ssh 命令会进入到远端机器,测试完毕后记得退出

1.3  第一步 关闭防火墙:service iptables stop  #关闭防火墙当前打开的防火墙

                         chkconfig iptables off   #关闭开机自启动

     第二步:修改hosts文件,增加机器名解析,修改三个机器的/etc/hosts文件,均增加下面几行:

     192.168.1.10  l1

     192.168.1.11  l2

     192.168.1.12  l3

  

2.1 配置6个文件(/usr/home/hadoop-1.2.1/conf):

1 hadoop-env.sh

export JAVA_HOME=/usr/jdk1.7   #修改默认Java_HOME路径            

2 core-site.xml:配置hadoop 默认文件端口和临时目录

<configuration>

        <property>

                <name>fs.default.name</name>

                <value>hdfs://l1:9000</value>  

        </property>

        <property>

                <name>hadoop.tmp.dir</name>

                <value>/home/grid/hadoop/tmp</value>

        </property>

</configuration>


 

3 hdfs-site.xml: 配置数据复制份数


 

<configuration>

        <property>

                <name>dfs.replication</name>

                <value>2</value>

        </property>

</configuration>



 

4 mapred-site.xml: 配置jobtracker端口


 

<configuration>

        <property>

                <name>mapred.job.tracker</name>

                <value>l1:9001</value>

        </property>

</configuration>

5 master:配置主节点名称

l1

6 slaves:配置从节点名称

l2

l3

配置完成后,将hadoop 目录复制到每个机器上

2.2 第一步:运行命令 /home/grid/hadoop-1.2.1/bin/hadoop  namenode -format格式化名称节点,注意看日志是否成功

     第二步:执行/home/grid/hadoop-1.2.1/bin/start-all.sh :启动Hadoop所有模块

2.3 在主节点机器上执行/usr/jdk1.7/bin/jps 看是否有进程 JobTracker namenode secondaryNamenode

      在从节点机器上执行/usr/jdk1.7/bin/jps 看是否有进程 datanode tasktracker


 

         http://192.168.1.10:50030 (MapReduce的页面)

          http://192.168.1.10:50070  (HDFS的页面)

       如果都可以打开,说明安装成功


 

2.x安装:

2.x 安装和1.x 基本一致,只有下面的地方不一致

1.3 hadoop文件解压后,需要在hadoop根目录下建立data和name文件夹 , 后面配置的地方要用到

2.1 配置6个文件(/usr/home/hadoop-2.x/etc/hadoop):

1 hadoop-env.sh同hadoop1.x一样

2 mapred-env.sh 仍然是改JAVA_HOME路径

3 yarn-env.sh 仍然是改JAVA_HOME路径

4 core-site.xml

<configuration>

        <property>

                <name>fs.defaultFS</name>

                <value>hdfs://l3:9000</value>

        </property>

        <property>

                <name>io.file.buffer.size</name>

                <value>131072</value>

        </property>

        <property>

                <name>hadoop.tmp.dir</name>

                <value>file:/home/grid/hadoop-2.2.0/tmp</value>

        </property>

        <property>

                <name>hadoop.proxyuser.hduser.hosts</name>

                <value>*</value>

        </property>

        <property>

                <name>hadoop.proxyuser.hduser.groups</name>

                <value>*</value>

        </property>

</configuration>

5 hdfs-site.xml

<configuration>

        <property>

                <name>dfs.namenode.secondary.http-address</name>

                <value>l3:9001</value>

        </property>

        <property>

                <name>dfs.namenode.name.dir</name>

                <value>file:/home/grid/hadoop-2.2.0/name</value>

        </property>

        <property>

                <name>dfs.datanode.data.dir</name>

                <value>file:/home/grid/hadoop-2.2.0/data</value>

        </property>

        <property>

                <name>dfs.replication</name>

                <value>2</value>

        </property>

        <property>

                <name>dfs.webhdfs.enabled</name>

                <value>true</value>

        </property>

</configuration>

 

6 mapred-site.xml

<configuration>

 

        <property>

                <name>mapreduce.framework.name</name>

                <value>yarn</value>

        </property>

        <property>

                <name>mapreduce.jobhistory.address</name>

                <value>l3:10020</value>

        </property>

        <property>

                <name>mapreduce.jobhistory.webapp.address</name>

                <value>l3:19888</value>

        </property>

</configuration>

7 yarn-site.xml

<configuration>

 

        <property>

                <name>yarn.nodemanager.aux-services</name>

                <value>mapreduce_shuffle</value>

        </property>

        <property>

                <name>yarn.nodemanager.aux-services.mapreduce.shuffle.class</name>

                <value>org.apache.hadoop.mapred.ShuffleHandler</value>

        </property>

        <property>

                <name>yarn.resourcemanager.address</name>

                <value>l3:8032</value>

        </property>

        <property>

                <name>yarn.resourcemanager.scheduler.address</name>

                <value>l3:8030</value>

        </property>

        <property>

                <name>yarn.resourcemanager.resource-tracker.address</name>

                <value>l3:8031</value>

        </property>

        <property>

                <name>yarn.resourcemanager.admin.address</name>

                <value>l3:8033</value>

        </property>

        <property>

                <name>yarn.resourcemanager.webapp.address</name>

                <value>l3:8088</value>

        </property>

</configuration>

8 slaves:

l2

l3

2.2 第一步:运行命令 /home/grid/hadoop-2.x/bin/hdfs  namenode -format格式化名称节点,注意看日志是否成功

     第二步:执行/home/grid/hadoop-2.x/bin/start-dfs.sh :启动hdfs模块

                  执行/home/grid/hadoop-2.x/bin/start-yarn.sh :启动yarn模块


 

2.3 在主节点机器上执行/usr/jdk1.7/bin/jps 看是否有进程 resourcemanager namenode secondaryNamenode

      在从节点机器上执行/usr/jdk1.7/bin/jps 看是否有进程 datanode nodemanager


 

         http://192.168.1.10:8088 (ResourceManager管理界面)

          http://192.168.1.10:50070  (nomenode的页面)

       如果都可以打开,说明安装成功

分享到:
评论

相关推荐

    hadoop1.x与hadoop2.x配置异同

    在探讨Hadoop1.x与Hadoop2.x配置的异同之前,我们首先简要回顾一下GridGain In-Memory HDFS的特性,这是基于行业首个高性能双模式内存文件系统,完全兼容HDFS。GridGain FileSystem(GGFS)作为Hadoop HDFS的即插即...

    Hadoop3.x系统文档

    文档中对于Hadoop 3.x常用配置与Hadoop 2.x的对比,提供了一系列常见配置项的解释,例如: - 如何指定Hadoop临时路径,这关系到Hadoop执行过程中临时文件的存放。 - dfs.blocksize可以使用的单位,文件块大小是HDFS...

    hadoop2.X新特性介绍

    ### Hadoop2.X 新特性详解 #### Hadoop1.0 的局限性 Hadoop1.0作为初代的大数据处理框架,在数据存储和处理方面取得了显著成就,但也暴露出了一系列问题,主要包括: - **HDFS(Hadoop Distributed File System)...

    win32win64hadoop2.7.x.hadoop.dll.bin

    标题“win32win64hadoop2.7.x.hadoop.dll.bin”暗示了这是一个与Hadoop 2.7.x版本相关的二进制文件,适用于32位和64位的Windows操作系统。描述中提到,这些文件是用于在Windows环境下部署Hadoop时必需的组件,并且在...

    hadoop3.x盘地址及官方其他版本下载地址.rar

    Hadoop 3.x系列是Hadoop的主要版本之一,相比之前的Hadoop 2.x,它引入了诸多改进和优化,提升了整体的存储性能和计算效率。在本文中,我们将深入探讨Hadoop 3.x的关键特性、优化之处以及如何获取和安装这个版本。 ...

    Hadoop 2.x与3.x 22点比较,Hadoop 3.x比2.x的改进

    1.Hadoop3.x通过什么方式来容错? 2.Hadoop3.x存储开销减少了多少? 3.Hadoop3.x MR API是否兼容hadoop1.x? 一、目的 在这篇文章中,我们将讨论Hadoop 2.x与Hadoop 3.x之间的比较。 Hadoop3版本中添加了哪些新功能...

    hadoop3.x笔记.docx

    Hadoop 是一个基于分布式存储的大数据处理框架,本文档将详细介绍 Hadoop 3.x 的配置和底层原理,从零搭建集群以及解决遇到的问题,通过图形化的方式更好地理解 Hadoop 的作用。 一、HDFS 组成 HDFS(Hadoop ...

    初识Hadoop 2.x.pdf

    ### Hadoop 2.x 入门知识点概览 #### 一、大数据应用发展前景 随着信息技术的飞速发展,数据量呈爆炸式增长,这不仅带来了挑战也孕育着新的机遇。根据2015年中国(深圳)IT领袖峰会的讨论,大数据正逐渐成为推动...

    Hadoop2.x 深入浅出企业级应用实战

    Hadoop2.x版本是对前一个版本的重大改进,它引入了YARN(Yet Another Resource Negotiator),这是一个资源管理和任务调度平台,它不仅改进了系统的可扩展性,还为各种数据处理模型提供了更好的支持。 《Hadoop2.x...

    适合hadoop2.9.* 以及 hadoop2.7.* 的winutils.exe_hadoop.dll 配置文件

    1. **解压缩**: 首先,你需要根据你的Hadoop版本选择合适的压缩包,例如,如果你使用的是Hadoop 2.9.x,就解压缩`hadoop2.9配置文件.rar`。 2. **复制文件**: 解压后,你会找到`winutils.exe`和`hadoop.dll`。将这两...

    Hadoop2.X集群安装与配置

    本文将详细介绍如何在三节点环境下安装和配置Hadoop 2.x 集群。 一、环境准备 在开始Hadoop的安装前,你需要确保你的硬件环境满足基本需求,包括足够的内存、硬盘空间以及至少三台服务器或虚拟机。每台节点应安装...

    hadoop2.x文档

    1. **Hadoop 2.x 平台基础:** - Hadoop 2.x 的架构原理及组件介绍(如HDFS、YARN等)。 - Hadoop 集群的搭建与管理。 - MapReduce 工作原理及实践应用。 2. **SQL on Hadoop 应用:** - Hive 的安装配置与使用...

    hadoop2.x主要配置

    包含了hadoop配置文件core-site.xml、hdfs-site.xml、mapred-site.xml、yarn-site.xml

    Apache Hadoop2.x 安装入门详解 PDF

    1. YARN(Yet Another Resource Negotiator):Hadoop 2.x引入了YARN,取代了旧版中的JobTracker,负责集群资源管理和调度,提高了系统的可扩展性和资源利用率。 2. HDFS Federation:通过增加多个NameNode,解决了...

    hadoop2.x 安装文档

    ### Hadoop 2.x 安装与配置详解 #### 一、准备工作 在开始Hadoop 2.x集群的搭建之前,需要确保以下条件已经满足: 1. **操作系统环境**: 所有的服务器节点均应安装Linux操作系统。 2. **Java Development Kit ...

    hadoop3.x带snappy(可用于windows本地开发)

    【标题】"hadoop3.x带snappy(可用于windows本地开发)"所涉及的知识点主要集中在Hadoop 3.0版本以及Snappy压缩算法在Windows环境下的应用。Hadoop是一个开源的大数据处理框架,由Apache软件基金会开发,它使得在...

    Hadoop 2.x单节点部署学习。

    此外,`mapreduce.jobtracker.address`在旧版Hadoop中是必要的,但在Hadoop 2.x中已被替换为YARN相关配置。 在部署Hadoop 2.x单节点环境时,你需要先下载并安装Hadoop二进制包,然后根据你的硬件和需求调整上述配置...

    hadoop 2.X 伪分布式配置文件

    1. **Hadoop 2.x架构**:Hadoop 2.x引入了YARN(Yet Another Resource Negotiator),作为资源管理器,替代了Hadoop 1.x中的JobTracker。YARN将任务调度和资源管理分离,提高了系统的可扩展性和灵活性。 2. **伪...

    Hadoop2.x HA环境搭建

    ### Hadoop2.x HA环境搭建知识点详解 #### 一、HA2.0集群搭建与测试 **准备工作:** 1. **停掉之前的服务:** - 在搭建Hadoop2.x HA集群之前,需要确保所有相关的服务都已经停止运行,避免与新搭建的集群产生...

    hadoop.2.7.x.zip

    2. **设置环境变量**: 配置 `HADOOP_HOME` 环境变量指向 Hadoop 的安装目录,并将 `%HADOOP_HOME%\bin` 添加到 `PATH` 变量,确保可以访问 `hadoop` 和 `winutils.exe` 等命令。 3. **配置 Hadoop**: 修改 `hadoop/...

Global site tag (gtag.js) - Google Analytics