`

hadoop2.3两台机子集群

    博客分类:
  • java
阅读更多
1、准备工作

两台主机:
A 192.168.1.22 名字myserver1 配置为namenode
B 192.168.1.23 名字myserver2 配置为datanode

需要:
每台机子有一个单独的名字
互相可以ping通对方和自己的名字
每台机器上执行ping ,不能返回127.0.0.1,返回本机IP才可以:
ping myserver1
ping myserver2

查看和修改机器名字
#查看主机名
hostname

#修改机器名字【机器重启完失效】
hostname myserver1

#修改永久生效
vi /etc/sysconfig/network
HOSTNAME=myserver1


修改IP和主机映射
#查看本机IP
ifconfig

192.168.1.22

#ping 主机名

ping myserver

#若返回127.0.0.1,需作ip映射

vi /etc/hosts

192.168.1.22 myserver1
192.168.1.23 myserver2

ping myserver
192.168.1.22


2、两台机器添加hadoop组和账号,配免登录SSH

#两台机器上执行
groupadd hadoop
useradd -g hadoop hadoop

su - hadoop

ssh-keygen -t rsa -P ""

#将A机器上的.ssh/id_rsa.pub 复制到B机器上,在B机器上使用hadoop账号执行
#A为namenode节点,B为datanode节点,A需要免登录到B上
cat id_rsa.pub >> .ssh/authorized_keys
chmod 644 .ssh/authorized_keys


#在A上使用hadoop账号登录后测试ssh登上B
su - hadoop

ssh -p 22 192.168.1.23

如果登录成功,则配置完成



3、A配置hadoop2.3为namenode

在A主机上
创建tmp目录
mkdir tmp/hadoop

修改4个配置文件core-site.xml、mapred-site.xml、hdfs-site.xml、yarn-site.xml

<configuration>
# vi etc/hadoop/core-site.xml
 <property>
 <name>hadoop.tmp.dir</name>
 <value>/xx/xx/tmp/hadoop</value>
 <description>A base for other temporary directories.</description>
 </property>
 <property>
 <name>fs.defaultFS</name>
 <value>hdfs://192.168.1.22:54310</value>本机IP:54310
 </property>
</configuration>



vi etc/hadoop/mapred-site.xml
<configuration>
 <property>
 <name>mapreduce.framework.name</name>
 <value>yarn</value>
 </property>
<property>
    <name>mapreduce.cluster.temp.dir</name>
    <value>/xx/xx/tmp/hadoop/</value>
  </property>

  <property>
    <name>mapreduce.cluster.local.dir</name>
    <value>/xx/xx/tmp/hadoop/</value>
  </property>

</configuration>



vi etc/hadoop/hdfs-site.xml
<configuration>
 <property>
 <name>dfs.replication</name>
 <value>1</value>
 </property>
 <property>
 <name>dfs.permissions</name>
 <value>false</value>
 </property>
</configuration>



 vi etc/hadoop/yarn-site.xml
<configuration>
<property>
 <name>yarn.nodemanager.aux-services</name>
 <value>mapreduce_shuffle</value>
 </property>
 <property>
 <name>yarn.nodemanager.aux-services.mapreduce_shuffle.class</name>
 <value>org.apache.hadoop.mapred.ShuffleHandler</value>
 </property>

<property>
    <name>yarn.resourcemanager.resource-tracker.address</name>
    <value>192.168.1.22:8031</value>本机IP:8031
  </property>

  <property>
    <name>yarn.resourcemanager.scheduler.address</name>
    <value>192.168.1.22:8030</value>本机IP:8030
  </property>

<property>
    <name>yarn.resourcemanager.address</name>
    <value>192.168.1.22:8032</value>本机IP:8032
  </property>

</configuration>


启动测试,查看日志,看是否运行成功
./bin/hadoop namenode -format
./sbin/start-hdfs.sh

运行成功后,测试端口54310是否可以连上
telnet 192.168.1.22 54310

连上测表示namenode启动成功。

关闭服务
./sbin/stop-hdfs.sh

4、配置主机B为datanode

在B主机上,解压hadoop2.3
创建tmp目录
mkdir tmp/hadoop

修改配置文件与A主机配置一样,只是resourceManager的IP要换成namenode的,即指向A主机


修改4个配置文件core-site.xml、mapred-site.xml、hdfs-site.xml、yarn-site.xml

<configuration>
# vi etc/hadoop/core-site.xml
 <property>
 <name>hadoop.tmp.dir</name>
 <value>/xx/xx/tmp/hadoop</value>
 <description>A base for other temporary directories.</description>
 </property>
 <property>
 <name>fs.defaultFS</name>
 <value>hdfs://192.168.1.22:54310</value>namenode A主机:54310
 </property>
</configuration>



vi etc/hadoop/mapred-site.xml
<configuration>
 <property>
 <name>mapreduce.framework.name</name>
 <value>yarn</value>
 </property>
<property>
    <name>mapreduce.cluster.temp.dir</name>
    <value>/xx/xx/tmp/hadoop/</value>
  </property>

  <property>
    <name>mapreduce.cluster.local.dir</name>
    <value>/xx/xx/tmp/hadoop/</value>
  </property>

</configuration>



vi etc/hadoop/hdfs-site.xml
<configuration>
 <property>
 <name>dfs.replication</name>
 <value>1</value>
 </property>
 <property>
 <name>dfs.permissions</name>
 <value>false</value>
 </property>
</configuration>



 vi etc/hadoop/yarn-site.xml
<configuration>
<property>
 <name>yarn.nodemanager.aux-services</name>
 <value>mapreduce_shuffle</value>
 </property>
 <property>
 <name>yarn.nodemanager.aux-services.mapreduce_shuffle.class</name>
 <value>org.apache.hadoop.mapred.ShuffleHandler</value>
 </property>

<property>
    <name>yarn.resourcemanager.resource-tracker.address</name>
    <value>192.168.1.22:8031</value>namenode A主机:8031
  </property>

  <property>
    <name>yarn.resourcemanager.scheduler.address</name>
    <value>192.168.1.22:8030</value>namenode A主机:8030
  </property>

<property>
    <name>yarn.resourcemanager.address</name>
    <value>192.168.1.22:8032</value>namenode A主机:8032
  </property>

</configuration>


5、格式化和启动

两台主机上清空日志和测试文件
rm -fr logs/*
rm -fr tmp/hadoop/*


A主机上
格式化namenode
./bin/hadoop namenode -format


A主机上启动
./sbin/start-dfs.sh;
./sbin/start-yarn.sh;


两台服务器日志是否正常,若全都正常
访问namenode的节点管理器:http://192.168.1.22:8088
可以看到两台主机

6、运行wordcount
上传一个文本文件到hdfs里,

#创建目录
./bin/hadoop fs -mkdir input

#上传文件,可以稍大点,我上传了一个900M的文件。
./bin/hadoop fs -put ./word.txt input

#执行
 ./bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.3.0.jar wordcount input/words.txt out


访问namenode的节点管理器:http://192.168.1.22:8088查看执行状态
执行完成后,下载结果
http://192.168.1.22:50070/explorer.html
/user/hadoop/output/


删除执行结果
./bin/hadoop fs -rm -r output

分享到:
评论

相关推荐

    hadoop2.3 native centos6.5 x64

    hadoop2.3 native centos6.5 x64

    Hadoop和Spark多节点集群搭建:从入门到进阶0基础!!易懂!!

    Hadoop和Spark多节点集群搭建Hadoop和Spark多节点集群搭建Hadoop和Spark多节点集群搭建Hadoop和Spark多节点集群搭建Hadoop和Spark多节点集群搭建Hadoop和Spark多节点集群搭建Hadoop和Spark多节点集群搭建Hadoop和...

    hadoop+hbase+zookeeper集群配置流程及文件

    集群配置完成后,通常还需要进行一些验证操作,如检查Hadoop的`dfs健康报告`、HBase的`master状态`以及Zookeeper的`集群状态`。同时,定期进行维护,如监控日志、性能调优和故障排查,是保持集群稳定运行的关键。 ...

    云计算Hadoop:快速部署Hadoop集群

    资源名称:云计算Hadoop:快速部署Hadoop集群内容简介: 近来云计算越来越热门了,云计算已经被看作IT业的新趋势。云计算可以粗略地定义为使用自己环境之外的某一服务提供的可伸缩计算资源,并按使用量付费。可以...

    安装Hadoop(单机版和集群)步骤

    如果你想构建Hadoop集群,你需要在多台虚拟机上重复以上步骤,并修改`mapred-site.xml`中的`mapred.job.tracker`属性为其中一个节点的IP,同时确保所有节点之间的SSH免密码登录。 在集群环境中,还需配置Hadoop的 ...

    Hadoop集群pdf文档

    Hadoop 集群配置详解 Hadoop_Hadoop集群(第1期)_CentOS安装配置 Hadoop_Hadoop集群(第2期)_机器信息分布表 Hadoop_Hadoop集群(第4期)_SecureCRT使用 Hadoop_Hadoop集群(第5期)_Hadoop安装配置 Hadoop_Hadoop...

    两台 Ubuntu 机器实现 Hadoop 集群

    标题中的“两台 Ubuntu 机器实现 Hadoop 集群”指的是在两台运行 Ubuntu 操作系统的计算机上搭建一个 Hadoop 分布式计算环境。Hadoop 是一个由 Apache 基金会开发的开源框架,主要用于处理和存储大量数据。它基于 ...

    Hadoop HA高可用集群搭建(Hadoop+Zookeeper+HBase)

    Hadoop HA高可用集群搭建(Hadoop+Zookeeper+HBase) 一、Hadoop HA高可用集群概述 在大数据处理中,高可用集群是非常重要的,Hadoop HA高可用集群可以提供高可靠性和高可用性,确保数据处理不中断。该集群由...

    Hadoop在两台Ubuntu的VM虚拟机的集群配置

    Hadoop在两台Ubuntu的VM虚拟机的集群配置 Hadoop是 Apache 软件基金会旗下的开源大数据处理框架,它使用分布式计算来处理大规模数据。为了更好地学习和实践Hadoop,我们可以使用VMware WorkStation创建两台Ubuntu...

    hadoop-2.3-win7配置

    在IT行业中,Hadoop是一个广泛使用的开源框架,用于处理和存储大规模数据集。在这个"**hadoop-2.3-win7配置**"中,我们主要关注的是如何在Windows 7环境下配置...只有正确配置,才能确保Hadoop集群稳定高效地运行。

    使用docker部署hadoop集群的详细教程

    目标:使用docker搭建一个一主两从三台机器的hadoop2.7.7版本的集群 准备: 首先要有一台内存8G以上的centos7机器,我用的是阿里云主机。 其次将jdk和hadoop包上传到服务器中。 我安装的是hadoop2.7.7。包给大家准备...

    利用ansible 自动 安装Hadoop 集群

    Hadoop作为大数据处理的核心组件,包括HDFS(Hadoop Distributed File System)和MapReduce等模块,构建一个Hadoop集群通常涉及多台服务器的配置、软件安装、服务启动和集群配置。通过Ansible,我们可以简化这个过程...

    hadoop2.3.01-64位编译包(2)

    资源如题,自己编译的,亲测可用,分成了三部分,下载完成自行解压就好

    HADOOP快速入门及搭建集群环境

    HADOOP快速入门及搭建集群环境 HADOOP是一种分布式计算技术,旨在处理大规模数据集,能够将大规模数据处理工作分配到多个计算机节点上,从而提高数据处理速度和效率。本资源旨在指导读者快速入门HADOOP,并搭建集群...

Global site tag (gtag.js) - Google Analytics