目的
这篇文档的目的是帮助你快速完成在三台以上服务器搭建Hadoop应用平台。
先决条件
VirtualBox
虚拟机共3台
操作系统:Ubuntu 10.4
内存: 256M以上
机器名
|
IP
|
作用
|
master
|
10.9.9.100
|
NameNode、master、jobTracker
|
slave01
|
10.9.9.101
|
DataNode、slave、taskTracker
|
slave02
|
10.9.9.102
|
DataNode、slave、taskTracker
|
安装Hadoop集群前的准备工作
一、在每台机子上创建hadoop用户
$ group hadoop
$ useradd -g hadoop hadoop
$ passwd hadoop
当然也可以用图形界面中 系统设置-〉用户和组 添加。添加之后注销使用hadoop用户登录,接下来的配置都用hadoop用户操作
二、修改hosts,在三台机子配置如下host
sudo vi /etc/hosts
10.9.9.100 master
10.9.9.101 slave01
10.9.9.102 slave02
三、开启ssh服务
安装ssh服务 :sudo apt-get install openssh-server
(1)在
master
上实现无密码登录本机
$ ssh-keygen –t dsa
一路回车,
完成后会在/home/hadoop/.ssh下生成两个文件:id_dsa和id_dsa.pub。这两对是成对出现的。再把id_dsa.pub加到authorized_keys文件里。方法如下:进入/home/hadoop/.ssh目录:
$ cat id_dsa.pub >>
authorized_keys
完成后可以实现无密码登录本机:
$ ssh localhost
若无密码输入提示,则配置成功。
(2)实现
master
无密码登录其他slave01,
slave02
在master机子上把id_dsa.pub文件复制给其它两台子
scp /home/hadoop/.ssh hadoop@slave01:/home/hadoop/
scp /home/hadoop/.ssh hadoop@slave02:/home/hadoop/
测试ssh 无密码登录
$ ssh slave01
$ ssh slave02
安装
一、下载 jdk7 jdk-7-linux-x64.tar.gz
http://www.oracle.com/technetwork/java/javase/downloads/java-se-jdk-7-download-432154.html
$ sudo tar -zxvf jdk-7-linux-x64.tar.gz -C /usr/local/java/
$ sudo mv /usr/local/java/jdk1.7.0 /usr/local/java/jdk
二、下载 hadoop hadoop-0.21.0.tar.gz
http://www.apache.org/dyn/closer.cgi/hadoop/common/
解压重命名
$ sudo tar -zxvf
hadoop-0.21.0.tar.gz -C /usr/local/
$ sudo mv /usr/local/hadoop-0.21.0 /usr/local/hadoop
(2) 添加环境变量
$sudo vi /etc/profile
export HADOOP_HOME=/usr/local/hadoop
export JAVA_HOME=/usr/local/java/jdk
export CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar
export PATH=$PATH:$JAVA_HOME/bin:$HADOOP_HOME/bin
注意:上面的路径要和你解压的路径相一致,以上的配置三台机子都要相同
配置hadoop
(1)建立目录
在master服务器上,建立目录 /data/hadoop/name、/data/hadoop/tmp
在slave01,slave02服务器上,建立目录 /data/hadoop/data01、/data/hadoop/data02、/data/hadoop/tmp
(2)建立无密码验证的ssh密钥及更改文件权限
(mster)
# chown hadoop:hadoop -R /usr/local/hadoop
# chown hadoop:hadoop -R /data/hadoop/name /data/hadoop/tmp
(
slave01、slave02
)
# chown hadoop:hadoop -R /usr/local/hadoop
# chown hadoop:hadoop -R /data/hadoop/data01 /data/hadoop/data02 /data/hadoop/tmp
(3)
在master上修改配置文件
,修改完成后,拷贝到slave01和slave02
,保证配置文件保持一致
要修改的文件有
{hadoop-install-dir}/conf/目录下的,
hadoop_env.sh
core-site.xml
hdfs-site.xml
mapred-site.xml
masters
slaves 六个文件
=======
hadoop_env.sh==========
配置Hadoop需要的环境变量,其中JAVA_HOME是必须设定的变量
。
export JAVA_HOME=/usr/java/jdk1.6.0
=======
core-site.xml==========
<?xml version="1.0"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<!-- Put site-specific property overrides in this file. -->
<configuration>
<property>
<name>hadoop.tmp.dir</name>
<value>/data/hadoop/tmp</value>
<description>A base for other temporary directories.</description>
</property>
<!-- file system properties -->
<property>
<name>fs.default.name</name>
<value>hdfs://master:9000</value>
</property>
</configuration>
=======hdfs-site.xml=======
<?xml version="1.0"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<!-- Put site-specific property overrides in this file. -->
<configuration>
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
<property>
<name>dfs.name.dir</name>
<value>/data/hadoop/name</value>
</property>
<property>
<name>dfs.data.dir</name>
<value>/data/hadoop/data01,/data/hadoop/data02</value>
</property>
</configuration>
================
mapred-site.xml
======================
<?xml version="1.0"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<!-- Put site-specific property overrides in this file. -->
<configuration>
<property>
<name>mapred.job.tracker</name>
<value>master:9001</value>
</property>
</configuration>
===============masters=====================
master
===============
slaves=========================
slave01
slave02
运行hadoop
(1)格式化namenode
$ hadoop namenode -format
注意查看相关log是否报错,
如将/data/hadoop/name文件夹整个删除或者给文件加上777权限 然后再格,一定要成功才能继续
(2)启动hdfs服务
$ start-all.sh
(3)启动hdfs服务
$ stop-all.sh
(4)
查看结果
http://10.9.9.100:50070/
(5)其它
查看进程情况:
jps可以用来查看当前hadoop运行的进程情况。
hadoop dfsadmin –report可以用来查看当前hadoop的运行情况。
分享到:
相关推荐
基于Hadoop分布式集群搭建方法研究的知识点包含以下几个方面: 1. Hadoop简介与大数据分布式基础架构: Hadoop是一个开源的大数据平台,由Apache软件基金会支持。它包括HDFS(Hadoop分布式文件系统)和MapReduce...
为了解决这些问题,本文提出了一种基于Hadoop的分布式集群大数据动态存储系统的设计方案。 首先,需要明确Hadoop在大数据处理中的地位和作用。Hadoop是一个开源的分布式存储和计算平台,它提供了一套完整的生态系统...
《Hadoop分布式集群搭建》 在大数据处理领域,Hadoop是一个关键的开源框架,它提供了在分布式计算环境中存储和处理海量数据的能力。本教程将详细阐述如何在多台机器上搭建一个Hadoop分布式集群。 首先,搭建Hadoop...
### hadoop分布式文件系统...综上所述,本文详细介绍了如何从零开始搭建一个包含Hadoop分布式文件系统和Hive的数据处理平台。通过遵循上述步骤,可以构建一个基本的Hadoop集群,并在此基础上进行更高级的数据处理任务。
部署全分布模式Hadoop集群 实验报告一、实验目的 1. 熟练掌握 Linux 基本命令。 2. 掌握静态 IP 地址的配置、主机名和域名映射的修改。 3. 掌握 Linux 环境下 Java 的安装、环境变量的配置、Java 基本命令的使用。 ...
构建Hadoop分布式集群环境是一项涉及多个知识点的复杂任务,它要求系统管理员或大数据工程师具备对Hadoop架构、云计算平台和Linux操作系统深入的理解和实践经验。下面将详细介绍在构建Hadoop分布式集群时所需的知识...
Hadoop完全分布式环境搭建文档,绝对原创,并且本人亲自验证并使用,图文并茂详细介绍了hadoop完全分布式环境搭建所有步骤,条例格式清楚,不能成功的,请给我留言!将给与在线支持!
由于其本身运行在大量廉价硬件设备集群上,因此,对Hadoop分布式集群的容错性验证显得尤为重要。 1. Hadoop平台搭建及容错验证 为了验证Hadoop的高容错性,首先需要在Linux系统上搭建一个Hadoop的集群环境。集群...
通过上述步骤,您应该能够在Windows环境下成功搭建起一个基本的Hadoop分布式集群,并具备运行简单示例的能力。这不仅有助于理解Hadoop的工作原理,还能够为进一步深入学习和应用Hadoop打下坚实的基础。
### Spark Standalone 分布式集群搭建详解 #### Spark Standalone 运行模式概述 Spark Standalone 是 Apache Spark 提供的一种自带的集群管理模式,主要用于管理 Spark 应用程序的执行环境。这种模式简单易用,适合...
3. Hadoop分布式集群平台构建过程:在构建Hadoop集群之前,需要先在每台机器上安装JDK(Java Development Kit),因为Hadoop是使用Java语言编写的。此外,建议将集群部署在Linux系统下,这样可以避免很多不必要的...
本文档是关于基于 Hadoop 的分布式存储平台的搭建与验证的毕业论文,论文涵盖了分布式存储平台的设计和实现,包括 NameNode 和 DataNode 的设计、安装和配置,以及 Hadoop 集群的搭建和测试。 知识点: 1. Hadoop ...
本文首先介绍了Hadoop和Spark的特点,然后对分布式集群的搭建进行研究并实现,给出了搭建步骤并完成了对集群的验证。Hadoop的特点包括文件系统HDFS的分布式存储和MapReduce的高性能计算,而Spark的特点包括计算效率...
【实验名称】基于华为云的Hadoop分布式系统搭建1 【实验目的】 1. 学习和理解华为云平台的基本操作和资源管理,包括如何在华为云控制台上创建和管理弹性云服务器。 2. 掌握分布式文件系统HDFS(Hadoop Distributed...
这个“hadoop分布式云平台基础视频.rar”压缩包文件显然包含了关于Hadoop基础知识的视频教程,适合初学者和希望深入理解Hadoop分布式计算的人群。让我们通过标签和描述来详细探讨这些关键知识点。 1. **分布式系统*...
NULL 博文链接:https://daxiangwanju.iteye.com/blog/1962175
这是对搭建环境的初步验证,以确保后续的Hadoop分布式计算能够正常进行。 10. 分布式部署方法 分布式部署方法涉及到的配置和步骤比较多,包括但不限于环境变量设置、格式化文件系统、启动集群服务等。在集群搭建...
随着大数据时代的到来,数据处理需求激增,Hadoop作为一种分布式集群架构,因其高可靠性和可扩展性而受到广泛应用。在个人学习和理解大数据平台的过程中,构建一个伪分布式环境是非常实用的方法。本文由汪庆发表,...