`

hadoop集群详解

阅读更多
hadoop集群详解

我这里是两台机子(可以n台),所以每台机子都给了相同的用户名和密码(最好是这样,放在root下更好)。Hadoop需要使用SSH协议,namenode将使用SSH协议启动namenode和datanode进程。
【1】: 安装和启动SSH协议
所有机器上安装SSH协议并启动服务,在所有机器上执行以下命令:

$ sudo apt-get install ssh 安装SSH协议

$ sudo apt-get install rsync

$ ssh sudo /etc/init.d/ssh restart 启动服务

命令执行完毕,各台机器之间可以通过密码验证相互登陆
【2】:配置Namenode无密码登录所有Datanode
    <1> : 原理
         Namenode作为客户端,要实现无密码公钥认证,连接到服务端datanode上时,需要在namenode上生成一个密钥对,包括一个公钥和一个私钥,而后将公钥复制到 datanode上。当namenode通过ssh连接datanode时,datanode就会生成一个随机数并用namenode的公钥对随机数进行加密,并发送给namenode。namenode收到加密数之后再用私钥进行解密,并将解密数回传给datanode,datanode确认解密数无误之后就允许namenode进行连接了。这就是一个公钥认证过程,其间不需要用户手工输入密码。重要过程是将客户端namenode公钥复制到 datanode上。
   <2> : 所有机器上生成密码对
         hadoop@user-desktop:~$ ssh-keygen -t rsa
Generating public/private rsa key pair.

Enter file in which to save the key (/home/hadoop/.ssh/id_rsa): 默认路径

Enter passphrase (empty for no passphrase): 回车,空密码

Enter same passphrase again:

Your identification has been saved in /home/hadoop/.ssh/id_rsa.

Your public key has been saved in /home/hadoop/.ssh/id_rsa.pub.

这将在/home/hadoop/.ssh/目录下生成一个私钥id_rsa和一个公钥id_rsa.pub。

cat id_rsa.pub >> authorized_keys
   <3> : 配置每个Datanode无密码登录Namenode
        Namenode连接 datanode时namenode是客户端,需要将namenode上的公钥复制到datanode上,那么,如果datanode主动连接 namenode,datanode是客户端,此时需要将datanode上的公钥信息追加到namenode中的authorized_keys之中。(此时,由于namenode中已经存在authorized_keys文件,所以这里是追加)。
在namenode上把id_rsa.pub复制到datanode上并且重新给命名
   scp id_rsa.pub hadoop@172.0.8.226:~/.ssh/id_rsa_xp.pub
在datanode上把id_rsa.pub复制到namenode上并且重新给命名
   scp id_rsa.pub hadoop@172.0.8.232:~/.ssh/id_rsa_br.pub
【3】 : 在各个namenode和datanode --- 执行命令 vi /etc/hosts 进入编辑状态
添加IP-主机映射关系
        172.0.8.232 user-desktop
172.0.8.226 br-desktop
【3】 :开始配置hadoop-0.19.2

<1> : hadoop-0.19.2/conf/hadoop-site.xml
<property>
<name>fs.default.name</name>
<value>hdfs://172.0.8.232:9090/</value>  <!--启动namenode-->
</property>
<property>
<name>mapred.job.tracker</name>
<value>hdfs://172.0.8.232:9091/</value> <!--启动jobtracker-->
</property>
<property>
<name>dfs.name.dir</name>
<value>/hadoop/namedata</value>
</property>
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
<property>
<name>hadoop.tmp.dir</name>
<value>/hadoop/temp</value>
</property>

<2> : masters 配置namenode
<3> : slavers 配置datanode

<4> : 在namdenode的根目录下执行一下命令实行同步
rsync -ave ssh --delete --progress hadoop-0.19.2 br-desktop:~/
分享到:
评论
1 楼 thinke365 2010-08-18  
ssh配置好了,【3】 :开始配置hadoop-0.19.2
具体如何配置啊

相关推荐

    Hadoop集群pdf文档

    Hadoop_Hadoop集群(第6期)_WordCount运行详解 Hadoop_Hadoop集群(第7期)_Eclipse开发环境设置 Hadoop_Hadoop集群(第8期)_HDFS初探之旅 Hadoop_Hadoop集群(第9期)_MapReduce初级案例 Hadoop_Hadoop集群(第10...

    Hadoop集群构建实训报告.doc

    ### Hadoop集群构建实训知识点详解 #### 一、运行平台构建 在构建Hadoop集群之前,需要对各台服务器进行必要的配置,确保集群能够稳定运行。主要包括修改主机名称、配置域名解析规则、关闭防火墙以及配置免密登录...

    Hadoop集群(1-11期)

    Hadoop集群·WordCount运行详解(第6期) Hadoop集群·Eclipse开发环境设置(第7期) Hadoop集群·HDFS初探之旅(第8期) Hadoop集群·MapReduce初级案例(第9期) Hadoop集群·MySQL关系数据库(第10期) Hadoop...

    Hadoop集群-WordCount运行详解

    在linux环境下部署的Hadoop集群-WordCount运行详解。

    Hadoop集群搭建(全)

    Hadoop集群搭建详解 Hadoop是一个开源的分布式计算平台,由 Apache 软件基金会开发,核心组件包括HDFS(Hadoop Distributed Filesystem)和MapReduce。HDFS是一个分布式文件系统,提供了对文件系统的命名空间和...

    Linux_RedHat、CentOS上搭建Hadoop集群

    【搭建Hadoop集群详解】 Hadoop是一个开源的分布式计算框架,专为处理和存储大量数据而设计。它的核心设计理念是高容错性、高效性和可扩展性,这使得Hadoop能够在大规模集群中处理PB级别的数据。Hadoop的可靠性源于...

    hadoop集群配置详解

    在这个详解中,我们将深入理解如何在Fedora和Ubuntu系统上搭建一个Hadoop集群。 首先,为了确保集群中的节点能够相互识别,我们需要配置静态IP地址。在Ubuntu系统中,可以通过图形界面进行配置,而在Fedora系统中,...

    Hadoop集群环境虚拟机上搭建详解

    根据提供的文件信息,下面将详细介绍在虚拟机上搭建Hadoop集群环境的相关知识点。 1. 安装虚拟机和操作系统 首先,需要安装虚拟机软件,例如文档中提到的VMware Workstation,它是一款流行的虚拟化软件,可以安装在...

    Hadoop技术详解.Hadoop Operation

    如何诊断并解决Hadoop集群中的各种错误,以及如何实施用户权限控制、数据加密和网络安全措施,都是运维人员必须掌握的技能。 总之,《Hadoop技术详解》这本书会深入讲解Hadoop的各个方面,包括其核心组件、生态系统...

    hadoop集群搭建详解

    Hadoop集群搭建详解 Hadoop是一个大数据处理框架,由Apache基金会开发和维护。它提供了一个分布式计算环境,能够处理大量数据。Hadoop生态系统包括了多个组件,如HDFS、MapReduce、YARN、HBase、Hive等。 Hadoop...

    Hadoop集群-WordCount运行详解.pdf

    本篇文档深入浅出地介绍了Hadoop集群的WordCount运行详解,从MapReduce理论到WordCount程序的运行,再到源码分析,内容丰富且详细,对于想要入门和深入了解Hadoop分布式计算和MapReduce模型的读者来说,是一份宝贵的...

    Hadoop集群搭建总结

    ### Hadoop集群搭建总结 #### 一、Hadoop概述与应用场景 Hadoop是一个由Apache基金会维护的开源分布式计算框架,其主要目标是处理大规模数据集的存储与计算问题。通过Hadoop,用户能够轻松地在分布式环境中开发和...

    安装hadoop集群

    ### Hadoop集群安装与配置详解 #### 一、引言 随着互联网技术的快速发展和企业数据量的激增,高效处理大规模数据的需求日益迫切。Hadoop作为一种开源的大数据处理框架,因其优秀的分布式处理能力和可扩展性,成为...

    大数据技术基础实验报告-Hadoop集群的使用和管理.doc

    【大数据技术基础实验报告——Hadoop集群的使用和管理】 Hadoop是Apache开源项目中一个分布式计算框架,它为处理和存储大规模数据提供了强大的支持。本实验报告将深入探讨Hadoop集群的启动、管理和使用,以及如何...

    3.基于hadoop集群搭建hbase

    ### 基于Hadoop集群搭建HBase集群详解 #### 一、引言 随着大数据技术的迅猛发展,海量数据的高效存储与处理成为企业关注的重点。Hadoop作为一款能够处理大量数据的基础框架,被广泛应用于各类场景之中。然而,在...

    详解搭建ubuntu版hadoop集群

    【搭建Ubuntu版Hadoop集群详解】 在本文中,我们将详细阐述如何在Ubuntu 16.04环境下搭建Hadoop集群。Hadoop是一个开源的分布式计算框架,它允许处理和存储大量数据,尤其适合大数据分析。Ubuntu是Linux发行版中的...

    大数据时代:高性能Hadoop集群与应用案例

    #### 二、Hadoop集群配置详解 Hadoop不仅可以单机运行,还可以通过配置集群模式实现高性能数据处理。集群配置是Hadoop部署的关键步骤之一,下面详细介绍Hadoop集群的配置过程: 1. **环境准备**:选择合适的操作...

    hadoop集群虚拟机安装详解

    在搭建Hadoop集群的过程中,首先需要一个可靠的虚拟化平台,VMware Workstation 8.0.0 是一个常用的选择。这个版本支持创建和管理虚拟机,对于初学者来说,它提供了一个理想的环境来实践Hadoop集群的安装和配置。在...

Global site tag (gtag.js) - Google Analytics