`
eksliang
  • 浏览: 599589 次
  • 性别: Icon_minigender_1
  • 来自: 广州
社区版块
存档分类
最新评论

Hadoop2.5.2集群部署

阅读更多

一、环境

转载请出至出处:http://eksliang.iteye.com/blog/2223784

准备3台虚拟机,安装Centos 64-bit操作系统。

  • 192.168.177.131 mast1.com mast1
  • 192.168.177.132 mast2.com mast2
  • 192.168.177.133 mast3.com mast3

其中mast1充当NameNade节点、mast2、mast3充当DataNode节点

 

 

二、安装之前的准备工作

  1. 安装jdk
  2. 每台机器新建hadoop用户,并配置ssh公钥密钥自动登录

这部分工作省略掉,配置ssh公钥密码自动登录参考:http://eksliang.iteye.com/blog/2187265

 

三、开始部署

3.1、下载hadoop2.5.2

下载地址:http://mirrors.cnnic.cn/apache/hadoop/common/hadoop-2.5.2/

 

3.2、配置hadoop-2.5.2/etc/hadoop

先配置mast1这台机器,配置后了后,将配置环境,复制到mast2、mast3上面即可

3.2.1、core-site.xml
<configuration>  
    <property>  
        <name>fs.defaultFS</name>  
        <value>hdfs://mast1:9000</value>  
    </property> 
    
    <property>  
        <name>io.file.buffer.size</name>  
        <value>4096</value>  
    </property>  
</configuration>  

 

  •    io.file.buffer.size:在读写文件时使用的缓存大小
3.2.2、hdfs-site.xml
<configuration>  
    <property>  
        <name>dfs.nameservices</name>  
        <value>ns</value>  
    </property>  

    <property>
	<name>dfs.namenode.http-address</name>
	<value>mast1:50070</value>
    </property>

    <property>  
        <name>dfs.namenode.secondary.http-address</name>  
        <value>mast1:50090</value>  
    </property>  
    
    <property>  
        <name>dfs.namenode.name.dir</name>  
        <value>file:///home/hadoop/workspace/hdfs/name</value>  
    </property>  
    <property>  
        <name>dfs.datanode.data.dir</name>  
        <value>file:///home/hadoop/workspace/hdfs/data</value>  
    </property>  
    <property>  
        <name>dfs.replication</name>  
        <value>2</value>  
    </property> 
  
    <property>  
        <name>dfs.webhdfs.enabled</name>  
        <value>true</value>  
    </property>  
</configuration>

 

  •  dfs.namenode.secondary.http-address:SecondaryNameNode服务地址
  • dfs.webhdfs.enabled :在NN和DN上开启WebHDFS (REST API)功能
3.2.3、mapred-site.xml
<configuration>  
    <property>  
        <name>mapreduce.framework.name</name>  
        <value>yarn</value>  
    </property>  
    <property>  
        <name>mapreduce.jobtracker.http.address</name>  
        <value>mast1:50030</value>  
    </property>  
    <property>  
        <name>mapreduce.jobhistory.address</name>  
        <value>mast1:10020</value>  
    </property>  
    <property>  
        <name>mapreduce.jobhistory.webapp.address</name>  
        <value>mast1:19888</value>  
    </property>  
</configuration> 

 

  •  mapreduce.jobhistory.address :mapreduce的历史服务IPC端口
  • mapreduce.jobhistory.webapp.address :mapreduce的历史服务器的http端口
3.2.4、yarn-site.xml
<configuration>  
    <property>  
        <name>yarn.nodemanager.aux-services</name>  
        <value>mapreduce_shuffle</value>  
    </property> 
    
     <property>  
        <name>yarn.resourcemanager.scheduler.address</name>  
        <value>mast1:8030</value>  
    </property>
    
    <property>  
        <name>yarn.resourcemanager.resource-tracker.address</name>  
        <value>mast1:8031</value>  
    </property> 

    <property>  
        <name>yarn.resourcemanager.address</name>  
        <value>mast1:8032</value>  
    </property>  
    
    <property>  
        <name>yarn.resourcemanager.admin.address</name>  
        <value>mast1:8033</value>  
    </property>  
    <property>  
        <name>yarn.resourcemanager.webapp.address</name>  
        <value>mast1:8088</value>  
    </property>  
</configuration> 

 

 

 3.2.5.slaves:指定DataNode节点的文件
mast2
mast3

 

 

3.2.6.修改JAVA_HOME

分别在文件hadoop-env.sh和yarn-env.sh中添加JAVA_HOME配置

 

#export JAVA_HOME=${JAVA_HOME} --原来 
export JAVA_HOME=/usr/local/java/jdk1.7.0_67 

 虽然配置的JAVA_HOME的环境变量,但是hadoop启动时,会提示找不到,没有办法,指定绝对路径

 

 

3.2.7.配置hadoop的环境变量,参考我的配置
[hadoop@Mast1 hadoop]$ vim ~/.bash_profile
export HADOOP_HOME="/home/hadoop/hadoop-2.5.2"
export PATH=$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$PATH
export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native
export HADOOP_OPTS="-Djava.library.path=$HADOOP_HOME/lib"

 温馨提示:其中HADOOP_COMMON_LIB_NATIVE_DIR 、HADOOP_OPTS这两个环境变量,是2.5.0后必须添加的,不然在启动集群时会报个小错

 

 

3.3、将配置复制到mast2、mast3

温馨提示:复制的过程是在hadoop用户下面复制的

scp -r ~/.bash_profile hadoop@mast2:/home/hadoop/
scp -r ~/.bash_profile hadoop@mast3:/home/hadoop/
scp -r $HADOOP_HOME/etc/hadoop hadoop@mast2:/home/hadoop/hadoop-2.5.2/etc/
scp -r $HADOOP_HOME/etc/hadoop hadoop@mast3:/home/hadoop/hadoop-2.5.2/etc/

 

 

3.4、格式化文件系统

bin/hdfs namenode -format

 

 

3.5、启动、停止(hdfs文件系统)跟yarn(资源管理器)

#启动HDFS分布式文件系统
[hadoop@Mast1 hadoop-2.5.2]$ sbin/start-dfs.sh 
#关闭HDFS分布式文件系统
[hadoop@Mast1 hadoop-2.5.2]$ sbin/stop-dfs.sh 
#启动YEAR资源管理器
[hadoop@Mast1 hadoop-2.5.2]$ sbin/start-yarn.sh 
#停止YEAR资源管理器
[hadoop@Mast1 hadoop-2.5.2]$ sbin/stop-yarn.sh 

 

3.6、JPS验证是否启动

#mast1(NameNode)上面执行jps,可以看到NameNode、ResourceManager
[hadoop@Mast1 hadoop-2.5.2]$ jps
3428 NameNode
4057 ResourceManager
4307 Jps

#切换到mast2或者mast3(DataNode)节点执行jps
[hadoop@Mast2 ~]$ jps
2726 DataNode
3154 Jps
3012 NodeManager

 

3.7、浏览器验证

http://mast1:50070/

 

http://mast1:8088/

 http://mast2:50075/

 备注:

  1. hadoop2.5.2官方文档,放在下载包的~/hadoop-2.5.2\hadoop-2.5.2\share\doc\hadoop目录下面可以查看到core.xml、hdfs.xml、mapreduce.xml、year.xml所有的默认配置,以及他的各种操作
  2. hadoop的参数中文写得很好的博客:http://segmentfault.com/a/1190000000709725#articleHeader2
  • 大小: 33.5 KB
  • 大小: 57.3 KB
  • 大小: 24.2 KB
分享到:
评论
1 楼 iii9527 2016-08-23  
这么好的文章没人看

相关推荐

    hadoop2.5.2window下eclipse环境搭建

    ### hadoop2.5.2在Windows下的Eclipse环境搭建详解 #### 一、Hadoop简介 Hadoop是由Apache基金会所开发的一个开源分布式计算框架,主要用于处理和存储大规模数据集。它通过分布式文件系统(HDFS)和MapReduce编程...

    Hadoop 2.5.2安装和部署

    本文将详细介绍如何从零开始安装和部署Hadoop 2.5.2版本。以下是详细步骤: 1. **先决条件** 在开始Hadoop的安装之前,确保你有一台或多台Linux服务器(例如Ubuntu、CentOS等),并具备一定的Linux基础操作技能。...

    hadoop-2.5.2

    用户可以通过解压此文件来获取Hadoop的相关文件,包括配置文件、可执行程序和库文件等,然后在本地或云端环境中部署和运行Hadoop集群。 总的来说,Hadoop 2.5.2是大数据处理领域的重要里程碑,它的出现推动了大数据...

    hadoop-2.5.2.tar.gz

    为了部署和运行Hadoop 2.5.2,你需要按照以下步骤进行操作: 1. 解压压缩包到一个适当的目录。 2. 配置Hadoop环境变量,如`HADOOP_HOME`和`PATH`。 3. 修改conf目录下的配置文件以适应你的集群环境。 4. 初始化HDFS...

    实验2-在Hadoop平台上部署WordCount程序-孙淼1

    4. **Hadoop联合部署**:理解Hadoop分布式文件系统(HDFS)和MapReduce模型的工作原理,安装和配置Hadoop集群,确保NameNode和DataNode之间的通信正常。 5. **SSH工具**:Secure Shell (SSH)用于在不同主机之间安全...

    hadoop-eclipse2.5.2、hadoop-eclipse2.6.0、hadoop-eclipse2.6.5

    Hadoop是一个开源分布式计算框架,由Apache基金会维护,主要用于处理和存储海量数据。Eclipse是流行的Java集成开发环境(IDE)...使用这些插件,开发者可以更便捷地在Hadoop环境中开发、测试和部署大数据处理应用程序。

    hadoop-eclipse-plugin

    Hadoop Eclipse Plugin允许开发者在Eclipse IDE中直接操作Hadoop集群,如创建Hadoop项目、部署MapReduce作业、查看作业执行状态等。这极大地简化了Hadoop应用的开发流程,提高了开发效率。 3. **不同版本的区别** ...

    hadoop2.x 安装文档

    - 解压Hadoop压缩包:`tar -zxvf hadoop2.5.2.tar.gz`。 - 进入Hadoop安装目录下的`etc/hadoop/`。 2. **环境变量配置**: - 修改`hadoop-env.sh`文件中的`JAVA_HOME`环境变量指向JDK安装路径: ```bash export...

    Hadoop配置

    - **Hadoop 版本:** hadoop-2.5.2 或 hadoop-2.6.0 或更高版本 - **Java 版本:** Oracle JDK 7u80 **1.2 下载 Hadoop** - 下载 Hadoop-2.6.0 版本。 **1.3 设置 HADOOP_HOME 环境变量** - 在用户主目录下的 `....

    英特尔Hadoop发行版 2.2 管理手册

    它简化了Hadoop集群的部署过程,并提供了直观的用户界面来管理各种组件和服务。该文档详细介绍了如何使用Intel® Manager for Hadoop进行集群管理和监控。 #### 二、Intel® Manager for Hadoop简介 **2.1 登录...

    hadoop-ecosystem-docker:Docker集群上的Hadoop开发生态系统

    目前,Hadoop生态系统平台包括: Hadoop(版本2.5.2) HBase(版本1.1.2) Spark(版本1.5.1) Pig(版本0.15.0) 它可以根据您的需要调整hadoop集群节点,默认节点为3。用法git clone ...

    jdbc连接hive的jar包

    描述中提到的"在ambari2.5.2下安装的hadoop版本,后面的版本应该都没问题",意味着这个配置是在Ambari管理工具的特定版本下完成的,Ambari是一个用于Hadoop集群部署、管理和监控的开源工具。这里的hadoop版本为2.5.2...

    hbase安装文档

    本文将详细介绍如何在生产环境中安装HBase,包括所需软件版本的选择,安装步骤以及配置文件的修改,以确保与Hadoop集群的无缝配合。 一、软件选型与下载 在开始安装前,我们需要准备以下软件包: 1. ZooKeeper:...

    ubuntu 14.04 ambari平台集成redis集群

    5. **部署Redis集群**: - 在Ambari Web界面中,选择“Add Service”并选择自定义的Redis服务 - 配置Redis服务参数,如端口、密码、持久化等,根据你的需求调整 - 分配Redis节点,确保每个节点都有一个Redis实例...

    ambari离线安装solr所需文件

    Ambari是Apache Hadoop生态系统中的一个开源工具,主要用于集群的部署、管理和监控。它提供了一个用户友好的Web界面,简化了Hadoop组件的安装和维护过程。在本案例中,我们将关注如何使用Ambari进行Solr的离线安装。...

    Spark项目计划书v1.0版2

    - 完整的Spark集群部署方案及运维手册。 - 基于Spark SQL的数据查询接口和可视化工具。 - 设计并实现的实时数据流处理应用。 - 一套针对特定业务场景的机器学习模型。 - 图数据处理的应用实例和相关文档。 2.4 项目...

    大型高并发web应用系统架构分析与设计

    - **1.2.1.1 软件级负载均衡**:如Nginx、HAProxy等,它们通常部署在服务器集群的前端,负责根据一定的算法将请求分发到不同的后端服务器上。 - **1.2.1.2 硬件级负载均衡**:通过专门的负载均衡设备(如F5、Cisco...

    storm 从零到精通 非常实用的文件

    - Storm 支持与其他大数据处理工具如 Hadoop、Kafka 等进行集成。 - **1.4.2 简单的API** - Storm 提供了简洁易用的 API,便于开发者快速上手。 - **1.4.3 可扩展的** - Storm 的架构设计使其易于扩展,可以根据...

Global site tag (gtag.js) - Google Analytics