版本信息:
Hadoop 2.3.0-cdh5.0.0
节点分布:
NameNode:compute-50-04 SecondaryNameNode:compute-50-04 ResourceManager :compute-50-03 NodeManager : compute-28-16 compute-28-17 compute-50-00 compute-50-03 compute-50-04 DataNode: compute-28-16 compute-28-17 compute-50-00 compute-50-03 compute-50-04
部署:
1.增加hadoop用户,组也是hadoop组,详情参见“linux之用户组分配”
2.配置节点之间的双向ssh免密登陆,参见博客“linux免密钥SSH登陆配置”
3.官方下载hadoop 2.3.0-cdh5.0.0包,解压路径为:/home/hadoop/hadoop 2.3.0-cdh5.0.0
4.配置core-site.xml:
<configuration> <property> <name>fs.default.name</name> <value>hdfs://compute-50-04:9000</value> </property> <property> <name>hadoop.tmp.dir</name> <value>/home/hadoop/data/tmp</value> </property> <property> <name>ha.zookeeper.quorum</name> <value>compute-28-16:2181,compute-28-17:2181,compute-50-00:2181</value> </property> <property> <name>hadoop.proxyuser.hduser.hosts</name> <value>*</value> </property> <property> <name>hadoop.proxyuser.hduser.groups</name> <value>*</value> </property> </configuration>
5.配置hdfs-site.xml:
<configuration> <property> <name>dfs.replication</name> <value>3</value> </property> <property> <name>dfs.namenode.secondary.http-address</name> <value>compute-50-03:9001</value> </property> <property> <name>dfs.ha.fencing.methods</name> <value>shell(/bin/true)</value> </property> <property> <name>dfs.namenode.name.dir</name> <value>/home/hadoop/data/dfs/nn</value> </property> <property> <name>dfs.data.dir</name> <value>/home/hadoop/data/dfs/dn</value> </property> <property> <name>dfs.datanode.failed.volumes.tolerated</name> <value>0</value> </property> <property> <name>ipc.client.ping</name> <value>false</value> </property> <property> <name>ipc.ping.interval</name> <value>60000</value> </property> <property> <name>dfs.webhdfs.enabled</name> <value>true</value> </property> <property> <name>dfs.client.read.shortcircuit</name> <value>false</value> </property> <property> <name>dfs.permissions.enabled</name> <value>false</value> </property> <property> <name>dfs.domain.socket.path</name> <value>${hadoop.tmp.dir}/sockets/dn._PORT</value> </property> </configuration>
6.配置mapred-site.xml:
<configuration> <property> <name>mapreduce.framework.name</name> <value>yarn</value> </property> <property> <name>mapreduce.jobhistory.address</name> <value>compute-50-00:10020</value> </property> <property> <name>mapreduce.jobhistory.webapp.address</name> <value>compute-50-00:19888</value> </property> <property> <name>mapreduce.jobhistory.intermediate-done-dir</name> <value>/data2/data/mr/history-tmp</value> </property> <property> <name>mapreduce.jobhistory.done-dir</name> <value>/data2/data/mr/history-done</value> </property> <property> <name>yarn.app.mapreduce.am.staging-dir</name> <value>/user</value> </property> <property> <name>mapreduce.map.memory.mb</name> <value>2048</value> </property> <property> <name>mapreduce.map.speculative</name> <value>false</value> </property> <property> <name>mapreduce.job.queuename</name> <value>default</value> </property> <!-- acl --> <property> <name>mapreduce.cluster.acls.enabled</name> <value>false</value> </property> <property> <name>mapreduce.job.acl-view-job</name> <value></value> </property> <property> <name>mapreduce.job.acl-modify-job</name> <value></value> </property> </configuration>
7.配置yarn-site.xml:
<configuration> <property> <name>yarn.nodemanager.aux-services</name> <value>mapreduce_shuffle</value> </property> <property> <name>yarn.nodemanager.aux-services.mapreduce.shuffle.class</name> <value>org.apache.hadoop.mapred.ShuffleHandler</value> </property> <property> <name>yarn.resourcemanager.hostname</name> <value>compute-50-04</value> </property> <property> <name>yarn.nodemanager.local-dirs</name> <value>/data2/data/yarn/local</value> </property> <property> <name>yarn.nodemanager.vmem-pmem-ratio</name> <value>10</value> </property> <property> <name>yarn.nodemanager.container-executor.class</name> <value>org.apache.hadoop.yarn.server.nodemanager.DefaultContainerExecutor</value> </property> <property> <name>yarn.log-aggregation-enable</name> <value>false</value> </property> <property> <name>yarn.resourcemanager.scheduler.class</name> <value>org.apache.hadoop.yarn.server.resourcemanager.scheduler.capacity.CapacityScheduler</value> </property> <property> <name>yarn.nodemanager.vmem-check-enabled</name> <value>false</value> </property> <property> <name>yarn.resourcemanager.scheduler.monitor.enable</name> <value>true</value> </property> <property> <name>yarn.resourcemanager.scheduler.monitor.policies</name> <value>org.apache.hadoop.yarn.server.resourcemanager.monitor.capacity.ProportionalCapacityPreemptionPolicy</value> </property> <property> <name>yarn.resourcemanager.monitor.capacity.preemption.observe_only</name> <value>false</value> </property> <property> <name>yarn.nodemanager.resource.memory-mb</name> <value>20720</value> </property> <property> <name>yarn.acl.enable</name> <value>false</value> </property> <property> <name>yarn.admin.acl</name> <value>yarn,hadoop</value> </property> <property> <name>yarn.nodemanager.resource.cpu-vcores</name> <value>8</value> </property> </configuration>
8.配置slaves:
compute-28-16 compute-28-17 compute-50-00 compute-50-03 compute-50-04
9.配置信息已经完成,那么建立相应的目录:
mkdir -p yourpath
10.分发到各个节点上去:
scp -r /home/hadoop/hadoop-2.3.0-cdh5.0.0 hadoop@hostxxxxx:/home/hadoop/ ......
11.格式化namenode:
bin/hadoop namenode -format
12.启动:
sbin/start-all.sh
其他问题:
1.启动的时候报错:Error: JAVA_HOME is not set and could not be found
修复方式:
在etc/hadoop/yarn-env.sh 和etc/hadoop/hadoop-env.sh中显示指定
export JAVA_HOME=/usr/java/jdk1.6.0_21
其他说明:
1.NameNode基于SecondaryNameNode没有HA
2.ResourceManager为单节点没有HA
相关推荐
通过本书的学习,读者可以全面掌握Hadoop YARN的架构设计和实现原理,不仅理解各个组件的功能和工作方式,还能深入到源代码层面,从而在实际工作中更加高效地部署和优化YARN集群。此外,本书还通过对比分析了不同...
Spark on Yarn是一种将Spark应用程序部署在Hadoop YARN资源管理器上的方法,它允许Spark充分利用YARN的资源管理和调度功能。在这个实验中,我们将详细探讨如何在Yarn模式下安装和部署Spark集群。 首先,我们需要...
使用脚本实现hadoop-yarn-flink自动化部署,详见博客:https://core815.blog.csdn.net/article/details/144022938
从文件中提供的信息来看,董西成在其关于Hadoop YARN程序设计与应用案例的演讲中,涵盖了Hadoop YARN的定义、架构、API和开发步骤、应用类型、以及YARN API所涉及的通信协议和客户端库等核心知识点。以下是对这些...
一个是传统的大数据领域,一个是新兴的容器与微服务架构领域,这两个领域之间交集本来很小,加之Hadoop最近几年已经失去焦点,所以,没有多少人关注和研究Hadoop在Kubernetes上的部署问题。 为了解决这些挑战,我们...
【Hadoop HA 集群部署与 YARN HA 测试Job 教学】 在大数据处理领域,Hadoop 是一个至关重要的分布式计算框架,它提供了高可用性(HA)的特性来确保服务的连续性和稳定性。Hadoop HA 主要指的是 HDFS(Hadoop ...
本文档提供了Hadoop 2.0在Linux系统上安装部署的详细步骤和方法。 一、准备工作 首先,需要准备足够的硬件资源和软件包。硬件方面,测试环境通常需要一台配置较高(建议内存不小于4GB)的PC或服务器,而生产环境则...
本文将详细介绍如何从零开始安装和部署Hadoop 2.5.2版本。以下是详细步骤: 1. **先决条件** 在开始Hadoop的安装之前,确保你有一台或多台Linux服务器(例如Ubuntu、CentOS等),并具备一定的Linux基础操作技能。...
《Hadoop安装部署详解》 Hadoop是一款开源的分布式计算框架,由Apache基金会开发,用于处理和存储海量数据。本文将详细介绍如何在Linux集群和Windows环境下进行Hadoop的安装与配置,以及对Hadoop核心配置文件的属性...
本教程涵盖了Hadoop的安装部署及教学,旨在帮助初学者和进阶者全面理解并掌握这一分布式计算框架。以下将详细阐述Hadoop的相关知识点,包括其概念、架构、安装步骤、配置优化以及实际应用。 一、Hadoop概述 Hadoop...
Presto on YARN 安装部署指南 Presto on YARN 是 Presto 的分布式实现,能够在 Hadoop 生态系统中运行。下面是 Presto on YARN 的安装部署指南。 Presto on YARN 安装部署 1. 下载 Presto on YARN 的源代码,地址...
Ambari的目标是简化Hadoop的部署和管理过程,使得Hadoop集群的安装、管理和监控变得更为简单直观。 在本文档中,我们将详细介绍在使用Ambari2.1.0版本进行Hadoop、YARN和Spark集群安装配置时需要注意的各个步骤,...
【标题】中的“基于SpringBoot的Hadoop-Yarn资源监控系统源码”表明这是一个使用SpringBoot框架构建的项目,目标是实现对Hadoop YARN资源的监控。SpringBoot以其便捷的初始化、配置和运行特性,常被用于快速开发...
《CDH安装手册》是大数据领域的一份重要参考资料,主要针对Hadoop的安装与部署进行详细阐述。CDH,全称Cloudera Distribution Including Apache Hadoop,是由Cloudera公司提供的一个开源大数据平台,它包含了多个...
Hadoop安装部署手册是针对初学者的全面指南,旨在帮助用户了解和实践Hadoop的安装与运行。Hadoop是一个开源的分布式计算框架,由Apache基金会开发,主要用于处理和存储大规模数据集。以下是详细的步骤和关键知识点:...
Hadoop 是一个强大的大数据处理框架,通过本文档,您可以轻松地安装和配置 Hadoop,开始大数据之旅。 知识点 1. Hadoop 是什么? 答:Hadoop 是一个开源的大数据处理框架,由 Apache 开发,旨在提供高效、可靠、可...
【Hadoop 安装部署完全分布式】 在搭建Hadoop完全分布式集群时,我们需要遵循一系列步骤,确保所有组件正确配置并协同工作。以下是基于三台机器的集群安装部署过程的详细说明: 1. **所需软件及版本** - Hadoop: ...
Hadoop的核心组件包括HDFS(Hadoop Distributed File System)和YARN(Yet Another Resource Negotiator)。本篇笔记将深入探讨Hadoop和YARN的基本原理以及它们在大数据处理中的作用。 首先,大数据的特点可以用4V...
### Hadoop 1.2.1 安装部署知识点总结 #### 一、Hadoop 来源及设计思想 - **Hadoop 设计思想**:Hadoop 的设计初衷是为了实现大规模数据处理的需求,通过分布式计算的方式提高数据处理的效率。其核心是分布式文件...
配置JDK、创建hadoop用户、安装SSH服务、配置无密码SSH登录以及正确选择Hadoop版本是整个部署过程中的关键步骤。这些步骤的配置好坏,直接影响到后续Hadoop集群的稳定性和性能。因此,在开始使用Hadoop前,应仔细...