`
m635674608
  • 浏览: 5032597 次
  • 性别: Icon_minigender_1
  • 来自: 南京
社区版块
存档分类
最新评论

Docker环境下Hadoop分布式集群搭建

 
阅读更多

2017年伊始,如今已经而立之年,这几年,五味杂陈,各中滋味,只能感叹时光飞逝!抱着归零的心态,春节期间,了解了一下Hadoop技术,在windows环境下,利用dockerTool box,搭建hadoop分布式集群,以便后续持续学习。整理如下:

 

  • Docker环境下Hadoop分布式集群搭建

    • 集群环境介绍

    • 服务器容器创建

    • 环境验证

 

1.集群环境介绍

如下表所示,集群中共3台服务器,master服务器充当了namenode和jobtacker的角色。slave1和slave2充当了datanode和tasktracker的角色

服务器名称 ip HDFS role MapReduce Role
master 172.18.0.10 namenode jobtracker
slave1 172.18.0.11 datanode tasktracker
slave2 172.18.0.12 datanode tasktracker

2.服务器容器创建

hadoop的docker镜像,从该网站拉取,分区拉取了namenode镜像和datanode镜像

docker pull uhopper/hadoop-namenode
docker pull uhopper/hadoop-datanode

考虑希望生成的容器具备静态ip,便于后期hdfs配置中的配置,所以先需要创建Docker自定义网络,其次基于该网络,分别创建master,slave1,slave2三个容器,

docker network create --subnet=172.18.0.0/16 hadoopNet
docker run -d --name namenode1 -h master --net hadoopNet --ip 172.18.0.10 -p 50070:50070 -v //c//Users//admin//hadoop//share://home//share -e "CORE_CONF_fs_defaultFS=hdfs://172.18.0.10:8082" -e "HDFS_CONF_DFS_REPLICATION=2" -e "CLUSTER_NAME=cluster0" uhopper/hadoop-namenode:latestdocker run -d --name datanode1 -h slave1 --net hadoopNet --ip 172.18.0.11 -e"CORE_CONF_fs_defaultFS=hdfs://172.18.0.10:8082" -e "HDFS_CONF_DFS_REPLICATION=2" -e  
"CLUSTER_NAME=cluster0" uhopper/hadoop-datanode:latest
docker run -d --name datanode2 -h slave2 --net hadoopNet --ip 172.18.0.12 -e "CORE_CONF_fs_defaultFS=hdfs://172.18.0.10:8082" -e 
"HDFS_CONF_DFS_REPLICATION=2" -e  

具体环境变量的配置,可参考uhopper说明,值得一提的是环境变量的配置,并没有针对mapred.site.xml文件配置,个人觉得这确实是一个bug,所以还需要针对三台服务器中/etc/hadoop/mapred.site.xml,进行jobtracker单独配置。以进入master服务器为例:

docker exec -it namenode1 //bin//bash
cat /etc/hadoop/mapred.site.xml

在该mapred.site.xml文件中追加jobtacker rpc远程调用属性

<properyt>
<name>mapred.job.tracker</name>
<value>172.18.0.10:9001</value>
</property>

对于slave1,slave2,两台服务器,笔者直接用rsync同步工具,进行文件拷贝的。

最后需要修改三台服务器,/etc/hosts以及/etc/hadoop/slaves文件,文件追加节点信息,不知道为什么,如果不追加的话,当往hdfs文件系统中提交大文件的时候会报错

3.环境验证

现在可以尝试向hdfs里面追加文件了。笔者将《hadoop权威指南》里面的1901年天气数据提交到hdfs中,并提交最高气温天气计算jar包到分布式集群,生成的1901最高气温数据,保存到/output/part-r-00000文件中

hadoop fs -put /home/predator/1901 /input
hadoop jar test.jar MaxTemprature hdfs://172.18.0.10:8082/input/1901 /output


http://www.wendq.com/wd/201702/14067.html
分享到:
评论

相关推荐

    基于docker的hadoop高可靠集群搭建

    基于docker构建hadoop分布式集群,可以适用于swarm云,k8s云,mesos云。

    Hadoop分布式搭建配置/Hive/HBase

    本文将围绕“Hadoop分布式搭建配置/Hive/HBase”这一主题,深入探讨Hadoop生态系统中的关键组件,并结合提供的书籍资源进行讲解。 首先,Hadoop是一个开源的分布式计算框架,它允许在大规模集群上处理和存储大量...

    云计算课程报告: Linux 基础、docker 基础、hadoop 基础、项目部署、分布式集群

    实验目的: 1. 熟悉常用的基本命令操作 2. 掌握搭建环境部署项目 3. 体会云计算虚拟化等概念 实验环境: 1. 个人电脑 Windows10 2. 远程访问 jupyterlab 虚拟机(Ubuntu20.04) ...3. Linux+hadoop 完全分布式集群搭建

    hadoop大数据集群,docker镜像地址.txt

    自己根据大数据需求搞的docker镜像,3台服务器,实现hadoop、hbase、phoenix、zookeeper、scala、kafka、hive、mysql集群环境,使用方便,快速搭建hadoop大数据集群环境,镜像拉取后可以通过一个脚本启动集群。

    基于Docker快速搭建Hadoop容器集群.zip

    人工智能-hadoop

    大数据分布式集群环境搭建.docx

    centos大数据分布式集群搭建,包含hadoop spark hbase hive solr elasticsearch redis zookeeper rocketmq mongodb mariadb storm kafka docker

    基于Docker搭建Hadoop集群, 用于学习.zip

    人工智能-Hadoop

    大数据Hadoop+HBase+Spark+Hive集群搭建教程(七月在线)1

    5. **集群搭建**: - 将上述所有组件安装在每台服务器上,包括Master和Slave节点。 - 调整各组件的配置文件,确保集群通信正常。 - 分别启动Hadoop、HBase、Spark和Hive的服务,测试它们之间的交互和数据流动。 ...

    Hadoop hbase hive sqoop集群环境安装配置及使用文档

    该文档将分为四部分:Hadoop 集群环境搭建、HBase 集群环境搭建、Hive 集群环境搭建和 Sqoop 集成使用。 一、Hadoop 集群环境搭建 1.1 JDK 安装与配置 在开始搭建 Hadoop 集群环境前,我们需要先安装并配置 JDK。...

    hadoop+hbase+hive集群搭建

    在指定目录下解压Hadoop、HBase和Hive的软件包,是部署集群的基本步骤。通过`tar`命令解压缩后,使用`ln -s`创建软链接,简化了环境变量的配置,并便于后续维护和升级。 ### 5. SSH无密码登录配置 SSH无密码登录是...

    Docker hadoop zookeeper hbase 配置文件

    本配置文件集专注于利用 Docker 搭建一个 HBase 集群,其中涉及到的关键知识点包括 Docker 的基本操作、Hadoop 的分布式文件系统(HDFS)、Zookeeper 的协调服务以及 HBase 的数据存储模型。 首先,了解 Docker 是...

    docker-flink:使用 Docker-Compose 在 Docker 容器中部署 Apache Flink 集群

    #Apache Flink 集群部署在 Docker 上使用 Docker-Compose ##安装###安装Docker 如果您遇到与 Docker 版本不兼容的 Docker-Compose 版本问题,请尝试curl -sSL https://get.docker.com/ubuntu/ | sudo sh ###Install ...

    zookeeper+hbase集群搭建

    在本文中,我们将深入探讨如何搭建一个Zookeeper和HBase集群,以及在过程中可能遇到的常见问题和解决方案。Zookeeper和HBase都是大数据处理领域的关键组件,Zookeeper作为一个分布式协调服务,而HBase是一个基于...

    小坨的Spark分布式集群环境搭建小笔记

    文章目录写在前面搭建好Hadoop集群环境安装Spark(Master节点上操作)配置环境变量(Master节点上操作)Spark配置(Master节点上操作)配置Worker节点启动Spark集群(在Master节点上操作)关闭Spark集群(在Master...

    HadoopHbaseZookeeper集群配置

    【Hadoop Hbase Zookeeper集群配置】涉及到在Linux环境下搭建分布式计算和数据存储系统的流程,主要涵盖以下几个关键知识点: 1. **集群环境设置**:一个基本的Hadoop Hbase Zookeeper集群至少需要3个节点,包括1个...

    Window环境安装hadoop所需工具

    在Windows环境中搭建Hadoop集群是一项复杂但有趣的技术挑战。Hadoop是一个开源的分布式计算框架,主要处理和存储大规模数据。为了在Windows上成功安装Hadoop,我们需要了解几个关键知识点,并准备一些必要的工具。...

Global site tag (gtag.js) - Google Analytics