虚机环境配置
目前只有一台虚拟机,设置IP为192.168.26.131,对这台虚拟机进行环境和Hadoop相关的配置后,关闭它然后克隆两个相同的虚拟机,然后针对每台虚拟机做虚拟机独有的设置
- 设置主机名
- 设置SSH免密码登陆
在一台虚机上,做如下操作:
- IP与域名绑定
- 关闭防火墙
- Hadoop相关配置
1. IP与域名绑定
编辑文件sudo vim /etc/hosts,输入如下内容:
192.168.26.131 hadoop.master 192.168.26.132 hadoop.slave1 192.168.26.133 hadoop.slave2
2. 关闭防火墙
systemctl status firewalld.service #查看防火墙状态 sudo systemctl stop firewalld.service #停止防火墙服务 sudo systemctl disable firewalld.service #永久不启用防火墙服务
3. Hadoop相关配置---见后面Hadoop相关配置
Hadoop相关的配置主要涉及/home/hadoop/software/hadoop-2.5.2/etc/hadoop目录下的其个文件:
- yarn-site.xml
- mapred-site.xml
- core-site.xml
- hdfs-site.xml
- slaves
- hadoop-env.sh
- yarn-env.sh
3.1. yarn-site.xml
<configuration> <property> <name>yarn.nodemanager.aux-services</name> <value>mapreduce_shuffle</value> </property> <property> <name>yarn.nodemanager.auxservices.mapreduce.shuffle.class</name> <value>org.apache.hadoop.mapred.ShuffleHandler</value> </property> <property> <name>yarn.resourcemanager.address</name> <value>hadoop.master:8032</value> <description>ResourceManager的RPC服务端口,用于NodeManager,ApplicationMaster与RM通信<description> </property> <property> <name>yarn.resourcemanager.scheduler.address</name> <value>hadoop.master:8030</value> </property> <property> <name>yarn.resourcemanager.resource-tracker.address</name> <value>hadoop.master:8031</value> </property> <property> <name>yarn.resourcemanager.admin.address</name> <value>hadoop.master:8033</value> </property> <property> <name>yarn.resourcemanager.webapp.address</name> <value>hadoop.master:8088</value> <description>ResourceManager的HTTP服务端口,http://rm:8088可以查看RM的<description> </property> </configuration>
3.2 mapred-site.xml
<configuration> <property> <name>mapreduce.framework.name</name> <value>yarn</value> <description>指定mapreduce框架基于yarn,也就是说,mapreduce的调度是采用yarn<description> </property> <property> <name>mapreduce.jobhistory.address</name> <value>hadoop.master:10020</value> </property> <property> <name>mapreduce.jobhistory.webapp.address</name> <value>hadoop.master:19888</value> <description>指定yarn的history server的http端口</description> </property> </configuration>
3.3 core-site.xml
<configuration> <property> <name>fs.defaultFS</name> <value>hdfs://hadoop.master:9000</value> <description>指定hdfs的地址,可以通过基于这个地址访问HDFS</description> </property> <property> <name>io.file.buffer.size</name> <value>131702</value> </property> <property> <name>hadoop.tmp.dir</name> <value>file:/home/hadoop/data/tmp</value> </property> <property> <name>hadoop.proxyuser.hadoop.hosts</name> <value></value> </property> <property> <name>hadoop.proxyuser.hadoop.groups</name> <value></value> </property> <property> <name>hadoop.native.lib</name> <value>true</value> <description>Should native hadoop libraries, if present, be used.</description> </property> </configuration>
3.4 hdfs-site.xml
<configuration> <property> <name>dfs.namenode.name.dir</name> <value>/home/hadoop/data/dfs/name</value> </property> <property> <name>dfs.datanode.data.dir</name> <value>/home/hadoop/data/dfs/data</value> </property> <property> <name>dfs.replication</name> <value>2</value> </property> <property> <name>dfs.namenode.secondary.http-address</name> <value>hadoop.master:9001</value> </property> <property> <name>dfs.webhdfs.enabled</name> <value>true</value> </property> </configuration>
3.5 slaves
hadoop.slave1 hadoop.slave2
3.6 yarn-env.sh
添加export JAVA_HOME=/home/hadoop/software/jdk1.7.0_67
3.7 hadoop-env.sh
添加export JAVA_HOME=/home/hadoop/software/jdk1.7.0_67
关闭上面的虚拟机,复制两份虚机,每个虚机做如下操作
- 配置主机名
1. 在192.168.26.131上设置主机名为hadoop.master
sudo hostnamectl set-hostname hadoop.master #查看主机名 hostname
2. 在192.168.26.132上设置主机名为hadoop.slave1
sudo hostnamectl set-hostname hadoop.slave1 #查看主机名 hostname
3. 在192.168.26.133上设置主机名为hadoop.slave2
sudo hostnamectl set-hostname hadoop.slave2 #查看主机名 hostname
- SSH免密码登录
1.在192.168.26.131,192.168.26.132,192.168.26.133上分别执行如下命令,生成RSA私有密钥和公有密钥
ssh-keygen -t rsa -P ""
2. 在每个虚机上,执行如下操作:
2.1 将当前目录切换到/home/hadoop/.ssh
2.2 执行如下命令将id_rsa.pub复制到authorized_keys文件中(这个命令首先创建authorized_keys文件)
cat id_rsa.pub > authorized_keys
4.在每台虚拟机上设置.ssh目录和authorized_keys文件的权限
chmod 700 .ssh chmod 600 authorized_keys
5. 在192.168.26.131上执行如下命令,检查SSH免密码登录是否起作用
ssh localhost exit ssh 192.168.26.132 exit ssh 192.168.26.133 exit5.在其它两台虚拟机上分别执行步骤4
运行Hadoop
- 在192.168.26.131上格式化Hadoop的Namenode
- 在192.168.26.131上启动Hadoop
1. 切换到/home/hadoop/software/hadoop-2.5.2/sbin目录
- 查看Hadoop进程
1. 在192.168.26.131执行jps命令,查看主节点进程
[hadoop@hadoop hadoop]$ jps 3537 SecondaryNameNode 3330 NameNode 5278 Jps 3700 ResourceManager
2. 在192.168.26.132执行jps命令,查看子节点Slave1进程
2400 DataNode 2533 NodeManager 3621 Jps
3. 在192.168.26.133执行jps命令,查看子节点Slave2进程
2235 DataNode 3565 Jps 2376 NodeManager
- 运行WordCount程序
- 查看Hadoop的web页面
访问:http://hadoop.master:8088
http://hadoop.master:8088/cluster/nodes
http://hadoop.master:8088/cluster/apps
HDFS状态
访问http://hadoop.master:50070
访问http://hadoop.master:9001/status.html查看secondary namenode的状态
备忘:http://www.cnblogs.com/meiyuanbao/p/hadoop2.html
相关推荐
【标题】"hadoop2.4.1_centos7_64位本包" 提供的是针对64位 CentOS 7 操作系统编译的 Hadoop 2.4.1 版本。Hadoop 是一个开源框架,主要用于分布式存储和处理大数据。在32位系统上,Hadoop 的二进制包可以直接使用,...
我们拥有名为"cloudera-manager-centos7-cm5.10.0_x86_64.tar.gz"的压缩包,包含"cm-5.10.0"和"cloudera"两个子目录。首先,将压缩包解压到一个合适的目录,例如`/opt`: ```bash tar -zxvf cloudera-manager-...
Hadoop_Hadoop集群(第1期)_CentOS安装配置 Hadoop_Hadoop集群(第2期)_机器信息分布表 Hadoop_Hadoop集群(第4期)_SecureCRT使用 Hadoop_Hadoop集群(第5期)_Hadoop安装配置 Hadoop_Hadoop集群(第5期副刊)_...
CentOS-7-x86-64-DVD-2207-02.iso
标题中的“大数据教程之搭建Hadoop集群.zip_大数据环境搭建hadoop”暗示了这是一个关于如何在大数据环境中构建Hadoop集群的教程。Hadoop是Apache软件基金会的一个开源项目,主要用于处理和存储海量数据,其分布式...
CentOS-6.4-x86_64下,hadoop-2.6.5,支持snappy的native lib
CentOS是一款基于Linux的开源操作系统,以其稳定性和安全性被广泛应用于服务器环境,是部署Hadoop的理想选择。在安装CentOS时,我们需要确保系统的更新是最新的,可以通过`sudo yum update`命令进行系统升级。同时,...
本文将详细介绍如何在 CentOS 6.5 环境中部署 Hadoop 2.6 伪分布式环境,包括环境准备、Hadoop 安装、配置和测试等步骤。 环境准备 在开始部署 Hadoop 之前,需要准备好 Linux 环境。这里选择 CentOS 6.5 作为操作...
部署全分布模式Hadoop集群 实验报告一、实验目的 1. 熟练掌握 Linux 基本命令。 2. 掌握静态 IP 地址的配置、主机名和域名映射的修改。 3. 掌握 Linux 环境下 Java 的安装、环境变量的配置、Java 基本命令的使用。 ...
根据给定文件的信息,本文将详细介绍如何在 CentOS 6.4 系统中安装 Hadoop 2.6.0,并实现单机模式与伪分布式模式的配置。 ### 环境准备 #### 操作系统环境 - **操作系统**: CentOS 6.4 32位 - **虚拟化平台**: ...
CentOS7 Hadoop 2.7.X 安装部署 本文档将指导您如何在 CentOS 7 上安装和部署 Hadoop 2.7.X。Hadoop 是一个开源的大数据处理框架,由 Apache 开发,旨在提供高效、可靠、可扩展的数据处理能力。 准备软件包 在...
细品味Hadoop_Hadoop集群(第1期)_CentOS安装配置
在本文中,我们将详细探讨如何在CentOS 6.8环境下部署Hadoop 2.6.5集群。Hadoop是一个开源分布式计算框架,主要用于处理和存储海量数据。它由两个主要组件构成:HDFS(Hadoop Distributed File System)和MapReduce...
教程:在linux虚拟机下(centos),通过docker容器,部署hadoop集群。一个master节点和三个slave节点。
【Hadoop安装教程_伪分布式配置_CentOS6.4】 Hadoop是一个开源的分布式计算框架,由Apache基金会开发,主要用于处理和存储大规模数据。本教程针对的是在CentOS 6.4操作系统上安装Hadoop 2.6.0的伪分布式配置,这种...
最近要在公司里搭建一个hadoop测试集群,于是采用docker来快速部署hadoop集群。 0. 写在前面 网上也已经有很多教程了,但是其中都有不少坑,在此记录一下自己安装的过程。 目标:使用docker搭建一个一主两从三台机器...
1. **CentOS 7**: 这是一个稳定且广泛使用的Linux发行版,适合部署服务器应用,如Hadoop集群。 2. **多台服务器**: 搭建Hadoop集群通常需要至少三台机器,一台作为NameNode(主节点),一台作为DataNode(数据节点)...
在部署集群之前,还需进行时钟同步,因为集群中的所有节点都必须保持时间上的统一,以便于维护数据的一致性和正确性。推荐使用NTP(Network Time Protocol)服务来完成时钟同步。 在进行环境准备和节点配置之后,接...
通过以上步骤,你可以在CentOS 7.0上成功搭建Hadoop 2.5.2集群,为云计算框架提供基础平台。这个过程涵盖了Linux系统管理、Java环境配置、分布式文件系统HDFS的搭建、资源调度系统YARN的配置以及MapReduce编程模型的...
1)Hadoop集群_第1期_CentOS安装配置_V1.0 2)Hadoop集群_第2期_机器信息分布表_V1.1 3)Hadoop集群_第3期_VSFTP安装配置_V1.0 4)Hadoop集群_第4期_SecureCRT使用_V1.0 5)Hadoop集群_第5期_Hadoop...