`

Hadoop安装部署

阅读更多

 

http://www.kuqin.com/system-analysis/20081023/24034.html

1. Hadoop安装部署

1.1. 机器说明
总共4台机器:test161.sqa,test162.sqa, test163.sqa,test164.sqa
IP地址分别为:192.168.207.161 …… 192.168.207.164
操作系统:Redhat Linux
root用户密码:hello123

test161.sqa(192.168.207.161)作为namenode(master),其他的作为datanode(slave)

1.2. 用机器名ping通机器
用root用户登录。
在namenode和各个slave上用机器名互相ping,ping不通的话,修改/etc/hosts文件,加入如下内容:
192.168.207.161 test161.sqa
192.168.207.162 test162.sqa
192.168.207.163 test163.sqa
192.168.207.164 test164.sqa
这样应该就可以用机器名ping通了。
其他datanode机器只要保证和namenode能ping通就可以了

1.3. 新建系统hadoop用户
Hadoop要求所有机器上hadoop的部署目录结构要相同,并且都有一个相同的用户名的帐户,所以需要每台机器见一个同名的用户。
在这4台机器上建hadoop用户,密码:hadoop,默认路径/home/hadoop/。

1.4. SSH设置
Hadoop需要namenode到datanode的无密码SSH,所以需要设置namenode到其他3台datanode的无密码公钥认证方式的SSH。
首先用hadoop用户登录每台机器(包括namenode),在/home/hadoop/目录下建立.ssh目录,并将目录权设为:drwxr-xr-x,设置命令:
chmod 755 .ssh
在namenode执行入下图命令(用新建的hadoop用户登录):

输入ssh-keygen -t rsa后,
Enter file in which to save the key (/home/hadoop/.ssh/id_rsa):
Enter passphrase (empty for no passphrase): Enter same passphrase again:
这三个项目都直接回车。
然后将id_rsa.pub的内容复制到每个机器(也包括本机)的/home/hadoop/.ssh/authorized_keys文件中,
如果机器上已经有authorized_keys这个文件了,就在文件末尾加上id_rsa.pub中的内容,
如果没有authorized_keys这个文件,直接cp或者scp就好了,
下面的操作假设各个机器上都没有authorized_keys文件。
具体命令:
在namenode执行(用新建的hadoop用户登录):
cp /home/hadoop/.ssh/id_rsa.pub /home/hadoop/.ssh/authorized_keys scp authorized_keys test162.sqa:/home/hadoop/.ssh/
此处的scp就是通过ssh进行远程copy,此处需要输入远程主机的密码,即test162.sqa机器上hadoop帐户的密码(hadoop),
当然,也可以用其他方法将authorized_keys文件拷贝到其他机器上。另外2台datanode也一样拷贝。
scp authorized_keys test163.sqa:/home/hadoop/.ssh/scp authorized_keys test164.sqa:/home/hadoop/.ssh/
用hadoop用户登录每台机器,修改/home/hadoop/.ssh/authorized_keys文件的权限为:-rw-r–r–,设置命令:
cd /home/hadoop/.sshchmod 644 authorized_keys
设置完成后,测试一下namenode到各个节点的ssh链接,包括到本机,如果不需要输入密码就可以ssh登录,说明设置成功了。
其他机器一样测试:
ssh test162.sqassh test163.sqassh test164.sqa

1.5. 安装JDK
到sun网站下载JDK安装包,并在每台机器的root用户下面安装。下面以实例简单描述一下如何安装:
下载JDK的rpm包jdk-6u6-linux-i586-rpm.bin
chmod u+x ./jdk-6u6-linux-i586-rpm.bin./ jdk-6u6-linux-i586-rpm.bin rpm -ivh jdk-6u6-linux-i586.rpm
安装软件会将JDK自动安装到 /usr/java/jdk1.6.0_07目录下。安装完成后,设置JDK的环境变量,
考虑到JDK可能会有其他系统用户也会用到,建议将环境变量直接设置在/etc/profile中具体内容:
export JAVA_HOME=/usr/java/jdk1.6.0_07
export CLASSPATH=$CLASSPATH:$JAVA_HOME/lib:$JAVA_HOME/jre/lib
export PATH=$JAVA_HOME/bin:$JAVA_HOME/jre/bin:$PATH:$HOME/bin

1.6. 设置目录并安装Hadoop
用hadoop用户登录namenode,并新建一个目录,用于存放所有hadoop相关内容。
本例中在/home/hadoop目录下新建HadoopInstall下载hadoop安装包
http://apache.mirror.phpchina.com/hadoop/core/hadoop-0.16.3/hadoop-0.16.3.tar.gz,
存放到namenode的hadoop用户的/home/hadoop/HadoopInstall并解压缩:
tar zxvf hadoop-0.16.3.tar.gz
考虑到今后升级以及其他操作的方便性,建议建一个名称为hadoop的链接,指向hadoop-0.16.3目录:
ln -s hadoop-0.16.3 hadoop
新建目录:/home/hadoop/HadoopInstall/hadoop-conf
将/home/hadoop/HadoopInstall/hadoop/conf目录下的hadoop_site.xml,slaves,hadoop_env.sh,
masters文件拷贝到/home/hadoop/HadoopInstall/hadoop-conf目录
在/home/dbrg/.bashrc文件中设置环境变量$HADOOP_CONF_DIR:
export HADOOP_CONF_DIR=$HOME/HadoopInstall/hadoop-conf/

1.7. Hadoop环境变量设置和配置文件修改
在/home/hadoop/HadoopInstall/hadoop-conf/hadoop_env.sh文件中设置环境变量:
export JAVA_HOME=/usr/java/jdk1.6.0_06export HADOOP_HOME=/home/hadoop/HadoopInstall/hadoop
在/home/hadoop/HadoopInstall/hadoop-conf/masters文件中设置namenode:
文件内容:
test161.sqa
在/home/hadoop/HadoopInstall/hadoop-conf/slaves文件中设置datanode:
文件内容:
test162.sqatest163.sqatest164.sqa
在/home/hadoop/HadoopInstall/hadoop-conf/ hadoop-site.xml文件中设置hadoop配置:

fs.default.name
test161.sqa:9000The name of the default file system. Either the literal
string “local” or a host:port for DFS. mapred.job.tracker
test161.sqa:9001The host and port that the MapReduce job tracker runs at.
If “local”, then jobs are run in-process as a single map and reduce task. hadoop.tmp.dir/home/hadoop/HadoopInstall/tmp
A base for other temporary directories. dfs.name.dir
/home/hadoop/HadoopInstall/filesystem/nameDetermines where on the local filesystem
the DFS name node should store the name table. If this is a comma-delimited list of directories then the name table
is replicated in all of the directories, for redundancy. dfs.data.dir
/home/hadoop/HadoopInstall/filesystem/dataDetermines where on the local filesystem
an DFS data node should store its blocks. If this is a comma-delimited list of directories, then data will be stored
in all named directories, typically on different devices. Directories that do not exist are ignored. dfs.replication1Default block replication.
The actual number of replications can be specified when the file is created. The default is used if replication is
not specified in create time.
1.8. 部署datanode节点
将namenode上安装配置完成的hadoop文件拷贝到所有datanode:
scp -r /home/hadoop/HadoopInstall test162.sqa:/home/hadoop/scp -r /home/hadoop/HadoopInstall
test163.sqa:/home/hadoop/scp -r /home/hadoop/HadoopInstall test164.sqa:/home/hadoop/
1.9. 启动Hadoop
格式化namenode
/home/hadoop/HadoopInstall/hadoop/bin/hadoop namenode -format
在/home/hadoop/HadoopInstall/hadoop/bin/下面有很多启动脚本,可以根据自己的需要来启动:
* start-all.sh 启动所有的Hadoop守护。包括namenode, datanode, jobtracker, tasktrack
* stop-all.sh 停止所有的Hadoop。
* start-mapred.sh 启动Map/Reduce守护。包括Jobtracker和Tasktrack。
* stop-mapred.sh 停止Map/Reduce守护
* start-dfs.sh 启动Hadoop DFS守护.Namenode和Datanode
* stop-dfs.sh 停止DFS守护

 

在这里,简单启动所有守护
bin/start-all.sh
同样,如果要停止hadoop,则
bin/stop-all.sh

更多信息请查看 java进阶网 http://www.javady.com

分享到:
评论
1 楼 zhonghuart 2012-05-23  
表示好复杂

相关推荐

    HADOOP安装部署文档

    《Hadoop安装部署详解》 Hadoop,作为Google文件系统(GFS)的开源实现,是分布式计算领域的重要工具,其强大的数据处理能力和高容错性吸引了众多开发者和企业的关注。本文将详细介绍如何在Linux环境下安装和部署...

    hadoop 安装部署手册

    Hadoop安装部署手册是针对初学者的全面指南,旨在帮助用户了解和实践Hadoop的安装与运行。Hadoop是一个开源的分布式计算框架,由Apache基金会开发,主要用于处理和存储大规模数据集。以下是详细的步骤和关键知识点:...

    Hadoop安装部署及教学

    本教程涵盖了Hadoop的安装部署及教学,旨在帮助初学者和进阶者全面理解并掌握这一分布式计算框架。以下将详细阐述Hadoop的相关知识点,包括其概念、架构、安装步骤、配置优化以及实际应用。 一、Hadoop概述 Hadoop...

    hadoop安装部署说明文档

    《Hadoop安装部署详解》 Hadoop是一款开源的分布式计算框架,由Apache基金会开发,用于处理和存储海量数据。本文将详细介绍如何在Linux集群和Windows环境下进行Hadoop的安装与配置,以及对Hadoop核心配置文件的属性...

    hadoop安装部署 完全分布式

    【Hadoop 安装部署完全分布式】 在搭建Hadoop完全分布式集群时,我们需要遵循一系列步骤,确保所有组件正确配置并协同工作。以下是基于三台机器的集群安装部署过程的详细说明: 1. **所需软件及版本** - Hadoop: ...

    hadoop安装部署手册

    《Hadoop安装部署手册》是指导用户在Linux环境中配置和管理Hadoop分布式文件系统的详尽指南。Hadoop作为开源的大数据处理框架,以其高容错性、可扩展性和高效的并行处理能力,广泛应用于大数据处理领域。本手册将...

    Hadoop安装部署.pptx

    【Hadoop安装部署】是大数据应用基础的重要环节。Hadoop是一个基于Java的开源框架,用于在大规模计算机集群中处理海量数据的分布式计算。它能够支持上千个节点和PB级别的数据存储与处理,使得处理大数据变得更加高效...

    Hadoop安装部署实验材料

    【Hadoop 安装部署详解】 Hadoop 是一个开源的分布式计算框架,广泛应用于大数据处理。本实验将指导你如何在Linux环境下安装部署Hadoop,包括单机模式、伪分布式模式和分布式模式的概述,以及如何使用Vim编辑器、...

    07-Hadoop安装部署.pdf

    在Hadoop安装部署的过程中,涉及到很多关键的步骤和技术点。Hadoop是一种开源的框架,它允许使用简单的编程模型在集群上分布式存储和处理大量数据。Hadoop安装和部署是大数据处理的第一步,下面将详细解释标题和描述...

    Hadoop安装部署问题文档.rar

    建议仔细阅读这份文档,结合Ambari的使用,能够更好地理解和应对Hadoop部署过程中的挑战。 总的来说,Hadoop的安装部署虽然复杂,但借助Ambari这样的管理工具,可以显著降低难度。在实践中不断学习和积累经验,是...

    支持自动化Hadoop安装部署的研究.pdf

    参考文献中提到了其他与Hadoop相关的研究,如基于Hadoop架构的分布式计算和存储技术及其应用,基于HDFS的云数据备份系统,Hadoop框架的扩展和性能调优,以及数据中心Hadoop部署与追踪系统的研究。这些研究都为Hadoop...

    实验1:Hadoop安装部署

    Hadoop 安装部署实验 Hadoop 是一个大数据处理的开源框架,它是基于 Java 语言开发的,因此需要安装 Java 环境。在这个实验中,我们将安装和配置 Hadoop 环境,并学习基本的 Hadoop 操作。 一、实验准备 在开始...

    Hadoop安装部署手册范本.doc

    Hadoop安装部署手册范本.doc

    Hadoop安装部署简明步骤详解

    Hadoop安装部署简明步骤详解,详细说明如何安装、编译Hadoop,实现云计算环境

    hadoop安装部署

    大数据hadoop安装部署,主要是介绍hadoop的部署及应用

    支持自动化Hadoop安装部署的研究.rar

    支持自动化Hadoop安装部署的研究.rar

    hadoop安装部署最新版

    在本文中,我们将深入探讨如何安装和部署Hadoop的最新版本,主要依据"自己操作实践,归纳总结出来的hadoop按照部署文档"。Hadoop是一种分布式计算框架,广泛应用于大数据处理和存储,尤其在处理海量非结构化数据时...

    大数据Hadoop安装部署文档

    ### Hadoop在Windows上的伪分布式安装过程 #### 第一部分:Hadoop在Windows上伪分布式的安装过程 **一、安装JDK** 1. **下载JDK** - 访问Oracle官网下载页面:...

Global site tag (gtag.js) - Google Analytics