1. 集群信息如下:
主机名 |
Hadoop角色 |
Hadoop jps命令结果 |
Hadoop用户 |
Hadoop安装目录 |
master server152 |
Master slaves |
NameNode DataNode JobTracker TaskTracker SecondaryNameNode |
创建相同的用户的组名:hadoop。 安装hadoop-2.7.2时使用hadoop用户,并且hadoop的文件夹归属也是hadoop:hadoop |
/usr/local/hadoop |
slave1 server153 |
slaves |
DataNode TaskTracker |
||
slave2 server154 |
slaves |
DataNode TaskTracker |
注:master即使master又是slave.
3台64位centos6.5 + Hadoop2.7.2 + java7
2. 配置服务器的主机名
Namenode节点对应的主机名为server152
Datanode节点对应的主机名分别为server153、server154
3. 编辑每台机器的hosts, 以及主机名hostname。 (以server153为例子)
[root@server153 ~]# vi /etc/hosts 192.168.1.152 server152 192.168.1.153 server153 192.168.1.154 server154
[root@server153 ~]# cat /etc/sysconfig/network NETWORKING=yes HOSTNAME=server153 NETWORKING_IPV6=yes IPV6_AUTOCONF=no
4. 创建用户组
groupadd hadoop 添加一个组
useradd hadoop -g hadoop 添加用户
5. 安装hadoop
下载:http://mirrors.cnnic.cn/apache/hadoop/common/hadoop-2.7.2/hadoop-2.7.2.tar.gz
解压到/usr/local/hadoop/hadoop2.7.2
hadoop也要设置环境变量,使用vi /etc/profile命令编辑添加如下内容:
[root@server153 ~]# cat /etc/profile export HADOOP_HOME=/usr/local/hadoop/hadoop2.7.2 export PATH=$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$PATH #执行source /etc/profile使配置文件生效 [root@server153 ~]# source /etc/profile #修改所有者改为hadoop [root@server153 ~]#chown -R hadoop:hadoop /usr/local/hadoop/
5. SSH设置无密码验证
a)安装SSH,并让master免验证登陆自身服务器、节点服务器
#执行下面命令,让master节点能够免验证登陆自身服务器 ssh-keygen -t dsa -P '' -f ~/.ssh/id_dsa cat ~/.ssh/id_dsa >> ~/.ssh/authorized_keys export HADOOP\_PREFIX=/usr/local/hadoop/hadoop2.7.2
b) 让主结点(master)能通过SSH免密码登录两个子结点(slave)
#为了实现这个功能,两个slave结点的公钥文件中必须要包含主结点的公钥信息,这样当master就可以顺利安全地访问这两个slave结点了 # 在slave的机器上执行一下命令 scp hadoop@server152:~/.ssh/id_dsa.pub ~/.ssh/id_dsa.pub cat ~/.ssh/id_dsa.pub >> ~/.ssh/authorized_keys #设置权限,否则ssh依然需要输入密码 chmod -R 700 ~/.ssh
6. 安装Hadoop
解压到/usr目录下面,改名为hadoop。
hadoop也要设置环境变量,使用vi /etc/profile命令编辑添加如下内容:
export HADOOP_HOME=/usr/local/hadoop/hadoop2.7.2 export PATH=$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$PATH
7. 配置Hadoop
配置之前,需要在server152本地文件系统创建以下文件夹:
/usr/loacal/hadoop/name /usr/loacal//hadoop/data /usr/loacal//hadoop/temp
这里要涉及到的配置文件有7个:
~/hadoop-2.7.2/etc/hadoop/hadoop-env.sh ~/hadoop-2.7.2/etc/hadoop/yarn-env.sh ~/hadoop-2.7.2/etc/hadoop/slaves ~/hadoop-2.7.2/etc/hadoop/core-site.xml ~/hadoop-2.7.2/etc/hadoop/hdfs-site.xml ~/hadoop-2.7.2/etc/hadoop/mapred-site.xml ~/hadoop-2.7.2/etc/hadoop/yarn-site.xml
core-site.xml:
<configuration> <property> <name>fs.defaultFS</name> <value>hdfs://server152:9000</value> </property> <property> <name>hadoop.tmp.dir</name> <value>file:/usr/local/hadoop/fs/temp</value> <description>Abase for other temporary directories.</description> </property> </configuration>
hdfs-site.xml:
<configuration> <property> <name>dfs.namenode.secondary.http-address</name> <value>hdfs://server152:9001</value> </property> <property> <name>dfs.namenode.name.dir</name> <value>file:/usr/local/hadoop/fs/name</value> </property> <property> <name>dfs.datanode.data.dir</name> <value>file:/usr/local/hadoop/fs/data</value> </property> <property> <name>dfs.replication</name> <value>3</value> </property> <property> <name>dfs.webhdfs.enabled</name> <value>true</value> </property> </configuration>
mapred-site.xml:
<configuration> <property> <name>mapreduce.framework.name</name> <value>yarn</value> </property> <property> <name>mapreduce.jobhistory.address</name> <value>server152:10020</value> </property> <property> <name>mapreduce.jobhistory.webapp.address</name> <value>server152:19888</value> </property> </configuration>
yarn-site.xml:
<configuration> <property> <name>yarn.nodemanager.aux-services</name> <value>mapreduce_shuffle</value> </property> <property> <name>yarn.nodemanager.aux-services.mapreduce_shuffle.class</name> <value>org.apache.hadoop.mapred.ShuffleHandler</value> </property> <property> <name>yarn.resourcemanager.scheduler.address</name> <value>server152:8030</value> </property> <property> <name>yarn.resourcemanager.resource-tracker.address</name> <value>server152:8031</value> </property> <property> <name>yarn.resourcemanager.address</name> <value>server152:8032</value> </property> <property> <name>yarn.resourcemanager.admin.address</name> <value>server152:8033</value> </property> <property> <name>yarn.resourcemanager.webapp.address</name> <value>server152:8088</value> </property> </configuration>
slave.xml:
server153 server154
相关推荐
网上博客有此链接,无需下载,可以点击链接
"Hadoop2完全分布式集群搭建" Hadoop2是一个基于分布式计算的开源大数据处理框架,具有高可扩展性、可靠性和高性能等特点。下面是关于Hadoop2完全分布式集群搭建的知识点总结: 1. 前序 在搭建Hadoop2完全分布式...
### 基于VM+CentOS+hadoop2.7搭建Hadoop完全分布式集群的知识点解析 #### 一、概述 本文旨在详细介绍如何使用VMware Workstation(简称VM)结合CentOS 6.5操作系统来搭建Hadoop 2.7的完全分布式集群。此文档是根据...
1. 下载:首先,你需要下载Spark 2.1.0与Hadoop 2.7兼容的二进制包,即`spark-2.1.0-bin-hadoop2.7.tgz`。 2. 解压:在Linux服务器上,使用`tar -zxvf spark-2.1.0-bin-hadoop2.7.tgz`命令解压文件。 3. 配置环境...
hadoop2.7分布式完全安装配置手册,含hbase1.2安装配置,图文并茂,一看就会。
本人搭建hadoop完全分布式集群时,写的文档,内有详细步骤,
这个名为"spark-3.2.1-bin-hadoop2.7.tgz"的压缩包是Spark的一个特定版本,即3.2.1,与Hadoop 2.7版本兼容。在Linux环境下,这样的打包方式方便用户下载、安装和运行Spark。 Spark的核心设计理念是快速数据处理,...
最近自学hadoop2.0.0伪分布式搭建,都是一边学一边记录的 个人认为只要是稍微熟悉linux的都能看懂并搭建成功 分有点高,考虑好在下载
实验3—Hadoop 完全分布式模式搭建
Hadoop完全分布式环境搭建文档,绝对原创,并且本人亲自验证并使用,图文并茂详细介绍了hadoop完全分布式环境搭建所有步骤,条例格式清楚,不能成功的,请给我留言!将给与在线支持!
Hadoop2.2.0安装配置手册!完全分布式Hadoop集群搭建过程 按照文档中的操作步骤,一步步操作就可以完全实现hadoop2.2.0版本的完全分布式集群搭建过程
Spark-3.0.0-bin-hadoop2.7.tgz 是Spark 3.0.0版本的预编译二进制包,其中包含了针对Hadoop 2.7版本的兼容性构建。这个版本的发布对于数据科学家和大数据工程师来说至关重要,因为它提供了许多性能优化和新功能。 1...
hadoop2.7中文文档hadoop2.7中文文档hadoop2.7中文文档hadoop2.7中文文档hadoop2.7中文文档hadoop2.7中文文档hadoop2.7中文文档hadoop2.7中文文档hadoop2.7中文文档hadoop2.7中文文档hadoop2.7中文文档hadoop2.7中文...
hadoop2.4.1伪分布式搭建
hadoop2.8.4 完全分布式搭建 从菜鸟到 大神,首先你要先安装vm虚拟机,叫你克隆master,salver1,salver2,虚拟机,固定IP地址,同步时间,所有指令完全具备
与hadoop2.7版本的集成,意味着Spark可以很好地兼容Hadoop生态系统,包括HDFS(Hadoop分布式文件系统)和YARN(资源调度器)。 在"spark-2.4.0-bin-hadoop2.7.tgz"这个压缩包中,主要包含以下几个部分: 1. **...
本文档详细介绍了如何搭建Hadoop完全分布式集群,包括安装Linux操作系统、设置静态IP、安装SSH并配置免密码访问机制、配置Hadoop集群等步骤。本文档旨在帮助Hadoop初学者快速搭建Hadoop集群环境。 一、安装Linux...
这次我们讨论的是Spark 2.3.1与Hadoop 2.7的集成版本,名为"spark-2.3.1-bin-hadoop2.7.zip"的压缩包。 首先,Spark的核心设计理念是快速数据处理。它通过内存计算大大提高了数据处理的速度,对比传统的基于磁盘的...
在IT行业中,Hadoop是一个广泛使用的开源框架,主要用于大数据处理和分布式存储。标题"hadop2.7.x_winutils_exe&&hadoop_dll"暗示我们关注的是Hadoop 2.7.x版本在Windows环境下的两个关键组件:`winutils.exe`和`...
这个"spark-3.1.2-bin-hadoop2.7.tgz"是一个压缩包,包含了Spark 3.1.2版本,针对Hadoop 2.7优化的二进制发行版。在Linux环境下,这个版本的Spark可以与Hadoop生态系统无缝集成,用于大数据分析和处理任务。 Spark...