《Hadoop2.5.2集群安装》
1、环境介绍
操作系统:CentOS X64
物理机器:192.168.1.224(Master)、192.168.1.226(Slave1)、192.168.1.226(Slave2)
JDK版本:JDK7.X
Hadoop版本:Hadoop2.5.2
2、修改主机名称
通过命令“hostname”查看当前机器的机器名称,然后分别在Master、Slave1、Slave2机器的/etc/sysconfig/network文件上修改下主机名称(非必须)并保存,如下所示:
#Master机器(192.168.1.224) NETWORKING=yes HOSTNAME=Master #Slave1机器(192.168.1.225) NETWORKING=yes HOSTNAME=Slave1 #Slave2机器(192.168.1.226) NETWORKING=yes HOSTNAME=Slave2
3、修改hosts文件
分别在Master、Slave1、Slave2机器上修改下hosts文件并保存,如下所示:
192.168.1.224 Master 192.168.1.225 Slave1 192.168.1.226 Slave2
4、确保JDK成功安装并可用
当成功在Master、Slave1、Slave2机器上安装JDK后(笔者使用JDK7.x),还需要在“/etc/profile”文件中配置Java的环境变量,并通过命令“source “/etc/profile”命令使修改后的配置生效,如下所示:
#JAVA export JAVA_HOME=/usr/java/jdk1.7.0_67 export PATH=$JAVA_HOME/bin:$PATH #export CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar
5、Haddop的安装
使用命令“tar -zxvf”命令将gz压缩文件解压。笔者Hadoop的安装目录为:“/home/hadoop”,解压后的Hadoop目录为“/home/hadoop/hadoop-2.5.2”,最好确保Master、Slave1、Slave2机器上的Hadoop安装路径一致。
6、配置Hadoop环境变量
成功安装Hadoop后,接下来要做的事情就是配置Hadoop的环境变量,并通过命令“source “/etc/profile”命令使修改后的配置生效,如下所示:
#HADOOP export HADOOP_HOME=/home/hadoop/hadoop-2.5.2 export HADOOP_COMMON_HOME=$HADOOP_HOME export HADOOP_HDFS_HOME=$HADOOP_HOME export HADOOP_MAPRED_HOME=$HADOOP_HOME export HADOOP_YARN_HOME=$HADOOP_HOME export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop export CLASSPATH=.:$JAVA_HOME/lib:$HADOOP_HOME/lib:$CLASSPATH export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
7、修改Hadoop的一系列配置文件
/home/hadoop/hadoop-2.5.2/etc/hadoop/core-site.xml修改,如下所示:
<?xml version="1.0" encoding="UTF-8"?> <?xml-stylesheet type="text/xsl" href="configuration.xsl"?> <configuration> <property> <name>fs.defaultFS</name> <value>hdfs://Master:9000</value> </property> </configuration>
/home/hadoop/hadoop-2.5.2/etc/hadoop/hdfs-site.xml修改,如下所示:
<?xml version="1.0" encoding="UTF-8"?> <?xml-stylesheet type="text/xsl" href="configuration.xsl"?> <configuration> <property> <name>dfs.replication</name> <value>1</value> </property> <property> <name>dfs.namenode.name.dir</name> <value>/home/hadoop/dfs/name</value> </property> <property> <name>dfs.datanode.data.dir</name> <value>>/home/hadoop/dfs/data</value> </property> <property> <name>dfs.webhdfs.enabled</name> <value>true</value> </property> </configuration>
访问namenode的hdfs使用50070端口,访问datanode的webhdfs使用50075端口。要想不区分端口,直接使用namenode的IP和端口进行所有的webhdfs操作,就需要在所有的datanode上都设置hdfs-site.xml中的dfs.webhdfs.enabled为true。
/home/hadoop/hadoop-2.5.2/etc/hadoop/mapred-site.xml修改,如下所示:
<?xml version="1.0"?> <?xml-stylesheet type="text/xsl" href="configuration.xsl"?> <configuration> <property> <name>mapreduce.framework.name</name> <value>yarn</value> </property> <property> <name>mapreduce.jobhistory.address</name> <value>Master:10020</value> </property> <property> <name>mapreduce.jobhistory.webapp.address</name> <value>Master:19888</value> </property> </configuration>
jobhistory是Hadoop自带了一个历史服务器,用于记录Mapreduce历史作业。默认情况下,jobhistory没有启动,可用手动通过命令启动,如下所示:
jobhistory-daemon.sh start historyserver
/home/hadoop/hadoop-2.5.2/etc/hadoop/yarn-site.xml修改,如下所示:
<?xml version="1.0"?> <configuration> <property> <name>yarn.nodemanager.aux-services</name> <value>mapreduce_shuffle</value> </property> <property> <name>yarn.resourcemanager.address</name> <value>Master:8032</value> </property> <property> <name>yarn.resourcemanager.scheduler.address</name> <value>Master:8030</value> </property> <property> <name>yarn.resourcemanager.resource-tracker.address</name> <value>Master:8031</value> </property> <property> <name>yarn.resourcemanager.admin.address</name> <value>Master:8033</value> </property> <property> <name>yarn.resourcemanager.webapp.address</name> <value>Master:8088</value> </property> </configuration>
/home/hadoop/hadoop-2.5.2/etc/hadoop/slaves修改,如下所示:
Slave1 Slave2
分别在/home/hadoop/hadoop-2.5.2/etc/hadoop/hadoop-env.sh和yarn-env.sh中配置Java环境变量,如下所示:
export JAVA_HOME=/usr/java/jdk1.7.0_67
8、将配置好的Hadoop拷贝到从机上
使用命令“scp -r hadoop-2.5.2 hadoop@Slave1:/home/hadoop”和“scp -r hadoop-2.5.2 hadoop@Slave2:/home/hadoop”执行数据拷贝。
9、启动Hadoop
在正式 启动Hadoop之前,分别在Master、Slave1、Slave2机器上格式化HDFS,如下所示:
hdfs namenode –format
当成功格式化后,接下来便可以在Master上通过命令“start-all.sh”启动Hadoop,同时也可以通过“stop-all.sh”停止Hadoop运行(会由Master负责带动Slave节点的启动和停止)。
当成功启动Hadoop后,我们便可以在每一个节点下执行命令jps,查看Hadoop的进程,如下所示:
#Master上的Hadoop进程 30791 SecondaryNameNode 30943 ResourceManager 30607 NameNode #Slave1上的Hadoop进程 9902 DataNode 10001 NodeManager #Slave2上的Hadoop进程 9194 DataNode 9293 NodeManager
除此之外,开发人员还可以通过http://ip:50070、http://ip:8088、http://ip:19888,通过浏览器查阅Hadoop集群中每一个节点的运行状态。
相关推荐
标题 "eclipse开发hadoop2.5.2所用到的jar" 指的是在Eclipse中进行Hadoop 2.5.2开发时所需的特定版本的JAR文件集合。这些JAR文件通常包括以下几个部分: 1. Hadoop Common:这是Hadoop的基础模块,包含了一般用途的...
在Hadoop 2.5.2中,YARN(Yet Another Resource Negotiator)成为了资源管理器,取代了早期版本中的JobTracker,负责调度和监控任务,同时管理集群的计算资源。YARN提升了Hadoop的可扩展性和资源利用率,使得更多...
### hadoop2.5.2在Windows下的Eclipse环境搭建详解 #### 一、Hadoop简介 Hadoop是由Apache基金会所开发的一个开源分布式计算框架,主要用于处理和存储大规模数据集。它通过分布式文件系统(HDFS)和MapReduce编程...
本文将详细介绍如何从零开始安装和部署Hadoop 2.5.2版本。以下是详细步骤: 1. **先决条件** 在开始Hadoop的安装之前,确保你有一台或多台Linux服务器(例如Ubuntu、CentOS等),并具备一定的Linux基础操作技能。...
Hadoop 2.5.2源码分析 Hadoop是一个开源框架,主要用于处理和存储大量数据,它由Apache软件基金会开发并维护。Hadoop 2.5.2是Hadoop发展过程中的一个重要版本,它引入了许多改进和优化,旨在提高系统的稳定性和性能...
在安全方面,Hadoop 2.5.2引入了更全面的身份验证和授权机制,支持Kerberos等安全协议,增强了集群的安全性。同时,该版本还提供了更好的监控和诊断工具,帮助管理员更好地理解和优化集群的运行状态。 文件列表中的...
2、大数据环境-安装Hadoop2.5.2伪分布式傻瓜教程 原创
通过以上步骤,你可以在CentOS 7.0上成功搭建Hadoop 2.5.2集群,为云计算框架提供基础平台。这个过程涵盖了Linux系统管理、Java环境配置、分布式文件系统HDFS的搭建、资源调度系统YARN的配置以及MapReduce编程模型的...
在搭建Hadoop 2.5.2环境的过程中,我们需要经历几个关键步骤,包括本地模式、伪分布式集群和分布式集群的设置,以及HDFS系统的高可用性配置。首先,确保你的系统已经安装了JDK 1.8,因为Hive等组件需要1.7以上的版本...
在Windows7 x64 + Eclipse + Hadoop 2.5.2搭建MapReduce开发环境,下载的文件中包括下载的文件包括:hadoop 2.5.2.tar.gz,hadoop-common-2.2.0-bin-master.zip,hadoop-eclipse-plugin-2.5.2.jar。应用这些软件的...
这个名为“hadoop-2.5.2.zip”的压缩包文件提供了预配置的Hadoop 2.5.2环境,特别适用于在Linux操作系统上快速搭建Hadoop集群或进行大数据分析。 Hadoop 2.5.2是Hadoop发展中的一个重要版本,它包含了许多关键的...
在Mac环境下,搭建Hadoop2.5.2的基本步骤包括安装Java环境,配置Hadoop的相关环境变量,如JAVA_HOME、HADOOP_HOME等,并确保Hadoop能够正常运行WordCount示例程序。同时,还需要安装ZooKeeper,因为ZooKeeper在...
根据提供的文件信息,本文档是一份关于如何在VirtualBox5虚拟环境中使用CentOS6.8操作系统安装Hadoop2.5.2完全分布式集群的傻瓜教程。这份教程不是独立的完全分布式安装教程,而是在先前已经安装了VirtualBox5和...
按照文档操作可安装7个节点的大数据集群,包括hadoop,hive,hbase,spark,tez,flume,kafka等等,不技术自动化运维及监控
在Ubuntu操作系统中,...因此,正确安装和配置Hadoop的本机库对于充分利用系统资源和提升Hadoop集群的性能至关重要。在64位Ubuntu环境下,确保使用匹配版本的本机库可以避免兼容性问题,从而实现更高效的数据处理。
这些文件"hadop-eclipse-plugin-2.5.2.jar"、"hadoop-eclipse-plugin-2.6.0.jar"和"hadoop-eclipse-plugin-2.6.5.jar"分别对应Hadoop的2.5.2、2.6.0和2.6.5版本的插件。 **Hadoop核心组件:** 1. **HDFS(Hadoop ...
### Hadoop集群三台虚拟机安装配置详解 #### 一、环境准备与概述 本教程主要介绍如何在三台Linux虚拟机上安装配置Hadoop集群。三台虚拟机的IP地址分别为192.168.116.10(作为NameNode)、192.168.116.11(作为...