`

Hadoop超级安装手册(转载)

阅读更多
Hadoop超级安装手册
发表于 2011 年 05 月 24 日 由 shicheng
安装Hadoop并不困难,官方文档也给的还算详细。最近同事练习安装还是会遇到一些问题,最后我们整理出来傻瓜版安装手册,帮助你0基础成功。
北京数据平台荣誉出品微笑    特别感谢靳伟,暮霜同学帮忙整理出来这么傻瓜版的hadoop安装教程。




一、 Hadoop准备篇:

Hadoop运行软件环境:
1. SSH及 SSHD服务正常运行
2. JDK

如果没装,可以自己安装一下:

Sudo yum –y install jdk –b current
二、 Hadoop基础篇(安装完成单节点Hadoop)
1. 源代码下载

1.1 下载Hadoop 源码压缩包至服务器

wget clip_image001http://mirror.bjtu.edu.cn/apache/hadoop/core/hadoop-0.20.2/hadoop-0.20.2.tar.gz

1.2 解压源码压缩包 tar HadoopInstall

Tar –zvxf hadoop-0.20.2.tar.gz –C HadoopInstall

HadoopInstall即为Hadoop安装目录
2. 环境变量配置 : (hadoop_env.sh )

目录/home/YOURDictionary/HadoopInstall/ hadoop-0.20.2 /conf

2.1 JAVA_HOME:必选变量。

设置export JAVA_HOME=/usr/java/jdk1.6.0 jdk路径

2.2 HADOOP_HOME:可选变量

HADOOP_HOME默认的是bin目录的父目录,即/home/usr/HadoopInstall/ hadoop-0.20.2。

设置export HADOOP_HOME=/home/usr/HadoopInstall/ hadoop-0.20.2
3. 环境配置文件配置

主要有三个配置文件:core-site.xml, hdfs-site.xml, mapred-site.xml

3.1 conf/core-site.xml

<configuration>

  <property>

   <name>fs.default.name</name> —-文件系统的默认名称

    <value>hdfs://(master ip):9000</value>

  </property>

</configuration>

同理配置其他参数:

a. Hadoop运行的临时目录

hadoop.tmp.dir=/home/ads/data(自己设定自己虚拟机上的文件夹路径)

3.2 conf/hdfs-site.xml:

<configuration>

  <property>

    <name>dfs.replication</name>

    <value>1</value>

  </property>

</configuration>

同理配置其他参数:

a. DFS的数据保存目录:dfs.data.dir=/home/data,/home1/data(自己设定自己虚拟机上的文件夹路径

b. DFS Namenode保存的位置:dfs.name.dir=${hadoop.tmp.dir}/dfs/name,/home/ads/data1/dfs/name(自己设定自己虚拟机上的文件夹路径)

3.3 conf/mapred-site.xml:

<configuration>

  <property>

    <name>mapred.job.tracker</name> — Jobtracker的位置

    <value>(master ip):9001</value>

  </property>

</configuration>

同理配置其他参数:

a. 单节点同时运行的最大map数:mapred.tasktracker.map.tasks.maximum=8

b. 单节点同时运行的最大reduce数:mapred.tasktracker.reduce.tasks.maximum=6
4 主机自身打通 (ssh-keygen 命令详解见下节进阶篇)

$ ssh-keygen -t rsa -P ” -f ~/.ssh/id_ rsa
$ cat ~/.ssh/id_ rsa.pub >> ~/.ssh/authorized_keys
5 启动

进入~/HadoopInstall/ hadoop-0.20.2目录
5.1 格式化namenode

执行下面的命令[usr@servername: hadoop-0.20.2]$bin/hadoop namenode –format
5.2 简单启动所有守护

[usr@servername: hadoop-0.20.2]$ bin/start-all.sh

高级启动参见:Hadoop高级篇(Link)
5.3 停止守护

[usr@servername: hadoop-0.20.2]$bin/stop-all.sh
6 验证测试

启动成功后,可浏览器查看以下地址:
6.1 Job tracker

http://master名称:50030,能查看此页面,页面状态(Stated)显式为RUNNing(页面左上角)。
6.2 NameNode

http://master名称:50070,能看到Live Datanodes。
三、 Hadoop进阶篇(安装多节点hadoop):
3.1 集群SSH设置,集群打通(注意是双向哦)

例如集群存在三台机器,servername-1为主机。

3.1.1 在servername-1上生成密钥对:
[usr@servername-1:~]$ssh-keygen -t rsa

询问保存路径时直接回车采用默认路径

提示要为生成的密钥输入passphrase的时,直接回车,将其设定为空密码

生成的密钥对id_rsa,id_rsa.pub,默认存储在/home/usr/.ssh目录下。

3.1.2 id_rsa.pub的内容复制到每个机器(也包括本机)

id_rsa.pub的内容复制到每个机器(也包括本机)的/home/usr/.ssh/authorized_keys文件中。

如果机器上已经有 authorized_keys文件,就在文件末尾加上id_rsa.pub中的内容。

如果没有authorized_keys这个文件,直接cp 或者scp就好了,下面的操作假设各个机器上都没有authorized_keys文件。

i. 对于servername-1

[usr@servername-1:.ssh]$cp id_rsa.pub authorized_keys

ii. 对于servername-2(servername-3同servername-2的方法)

[usr @ servername-2:~]$mkdir .ssh

[usr @ servername-1:.ssh]$scp authorized_keys servername-2:/home/ servername /.ssh/

iii. 设置authorized_keys文件读写权限

[dbrg@ servername-2:.ssh]$chmod 644 authorized_keys必须保证authorized_keys只对其所有者有读写权限,其他人不允许有写的权限,否则SSH是不会工作的。

iv. 验证测试

i. 注意每个机器上的.ssh目录的ls -la都应该和上面是一样的

[usr @ servername-2:.ssh]ls -la
drwx—— 2 usr users.
drwx—— 3 usr users..
-rw-r–r– 1 usr users authorized_keys

ii. 测试本机ssh servername-1

iii. [usr @ servername-1:~]$ssh servername-2

如果ssh配置好了,就会出现以下提示信息
The authenticity of host [servername-2] can’t be established.
Key fingerprint is 1024 5f:a0:0b:65:d3:82:df:ab:44:62:6d:98:9c:fe:e9:52.
Are you sure you want to continue connecting (yes/no)?
OpenSSH告诉你它不知道这台主机,但是你不用担心这个问题,因为你是第一次登录这台主机。键入“yes”。这将把这台主机的“识别标记”加到“~/.ssh/know_hosts”文件中。第二次访问这台主机的时候就不会再显示这条提示信息了。
然后你会发现不需要输入密码就可以建立ssh连接了,恭喜你,配置成功了
3.2 Master主机配置(同上一节)
3.3 Masters/Slave文件配置

3.3.1 Masters

在master主机上的hadoop-0.20.2 /conf/目录下,打开master 文件,把master 主机名添加进去:,本文以servername-1做为master,所以在master文件内容是:

servername-1

3.3.2 Slaves

在master主机上的hadoop-0.20.2 /conf/目录下,打开slaves文件,该文件用来指定所有的从节点,一行指定一个主机名。即本文中的servername-2,servername-3,因此slaves文件看起来应该是这样的
servername-2
servername-3
3.4 部署Hadoop集群 (必须放在最后一步哦 )

前面讲的这么多Hadoop的环境变量和配置文件都是在dbrg-1这台master主机上的, 将上述配置好的hadoop分发至各个slave的相同位置,注意要保证目录结构一致,

[usr@ servername-1:~]$scp -r /home/ YOURDictionary /HadoopInstall servername-2:/home/ YOURDictionary / HadoopInstall
[usr@ servername-1:~]$scp -r /home/ YOURDictionary /HadoopInstall servername-3:/home/ YOURDictionary / HadoopInstall
3.5 启动

同hadoop 基础篇启动
3.6 验证测试

同hadoop 基础篇 验证测试
分享到:
评论

相关推荐

    hadoop完全安装手册

    ### Hadoop完全分布式安装手册 #### 一、环境规划与准备 在进行Hadoop的完全分布式安装之前,首先需要对整个环境进行规划和必要的准备工作。根据文档提供的信息,本手册将涉及以下三个主要方面: 1. **JDK安装**...

    hadoop2.0安装手册

    hadoop 2.0 详细安装手册。hadoop 2.0 详细安装手册。

    hadoop集群安装手册

    【Hadoop集群安装手册】 Hadoop是一个开源的分布式计算框架,由Apache基金会开发,主要用于处理和存储海量数据。本手册将详细介绍如何在5台虚拟机上手动安装和配置Hadoop集群,供初学者和专业人士参考。 ### 安装...

    hadoop 安装部署手册

    Hadoop安装部署手册是针对初学者的全面指南,旨在帮助用户了解和实践Hadoop的安装与运行。Hadoop是一个开源的分布式计算框架,由Apache基金会开发,主要用于处理和存储大规模数据集。以下是详细的步骤和关键知识点:...

    Hadoop集群安装手册

    本文档详细介绍了在Linux环境下Hadoop集群环境安装的每一步骤。

    Hadoop完全安装手册(完全分布式)

    Hadoop完全分布式安装手册(完全分布式),解决8088,50070端口不能访问问题,适合小白,完全按照手册执行即可

    CDH安装手册.rar_cdH_hadoop_hadoop安装手册_大数据_安装部署

    《CDH安装手册》是大数据领域的一份重要参考资料,主要针对Hadoop的安装与部署进行详细阐述。CDH,全称Cloudera Distribution Including Apache Hadoop,是由Cloudera公司提供的一个开源大数据平台,它包含了多个...

    hadoop 集群安装手册

    Hadoop集群安装手册是一份详细的指南,用于指导用户如何安装和配置Hadoop集群。Hadoop是一个开源的、分布式存储与计算框架,由Apache基金会维护,被广泛应用于大数据处理场景。本文档的目的是为用户提供一个完整的...

    Hadoop2.4.1安装手册

    ### Hadoop 2.4.1安装流程详解 #### 一、环境准备 根据文档描述,本次安装是在CentOS 6.4系统上进行的Hadoop 2.4.1的部署工作。为了确保安装过程顺利,首先需要完成一系列基础环境的搭建与配置。 ##### 1. 创建...

    Hadoop系统安装手册

    综上所述,从这篇Hadoop系统安装手册中,我们了解到Hadoop在Linux系统中的安装,需要创建专门的用户和配置,安装必要的软件包如ssh、vim、Eclipse和Java环境。在配置Hadoop时,需要修改特定的配置文件,并且对Linux...

    Hadoop安装手册_Hadoop2.0.pdf

    hadoop2.0版本安装手册,包含hadoop、hive、hbase、mahout、sqoop、spark、storm、整个体系的安装配置

    Hadoop2.2 安装手册

    《Hadoop 2.2 安装手册》是针对大数据处理框架Hadoop 2.2的详尽安装指南,特别适合初学者和有经验的IT专业人员参考。这份手册不仅包含了文字描述,还配有完整的截图,使安装过程更加直观易懂。在本文中,我们将深入...

    hadoop集群安装步骤

    hadoop集群安装详细步骤,支持snappy hadoop 集群安装

    hadoop2安装手册

    Hadoop安装手册中还提到了配置ZooKeeper、HDFS NameNode和RegionServer。ZooKeeper在Hadoop中用于维护配置信息以及提供分布式锁服务。HDFS NameNode是Hadoop分布式文件系统的主要节点,负责管理文件系统的命名空间和...

    Linux运维入门Hadoop实验参照手册二(安装Hadoop)

    Linux运维入门Hadoop实验参照手册二(安装Hadoop)

    Hadoop完全自学手册

    1. **文件权限管理**:在Hadoop安装过程中,确保正确修改文件的所有者和组,如`sudo chown beifeng:beifeng –R /opt/*`,这有助于避免权限问题。 2. **Linux防火墙关闭**:在安装Hadoop前,需关闭Linux防火墙,...

    hadoop安装手册

    hadoop安装手册,详细介绍如何安装配置hadoop,可按照步骤进行安装

    HadoopHA安装手册第二版.doc

    HadoopHA安装手册第二版.doc

    hadoop超级详细安装文档

    【Hadoop超级详细安装文档】 Hadoop是一款开源的分布式计算框架,由Apache基金会开发,用于处理和存储海量数据。它的核心组件包括HDFS(Hadoop Distributed File System)和MapReduce,能够实现数据的高容错性和高...

    hadoop安装部署手册

    《Hadoop安装部署手册》是指导用户在Linux环境中配置和管理Hadoop分布式文件系统的详尽指南。Hadoop作为开源的大数据处理框架,以其高容错性、可扩展性和高效的并行处理能力,广泛应用于大数据处理领域。本手册将...

Global site tag (gtag.js) - Google Analytics