`

hadoop-0.19.0在linux下的集群配置

阅读更多

最近在linux下配置了hadoop,现将配置过程总结如下,欢迎讨论,欢迎交流!
一、配置ssh服务
    由于MapReduce程序在运行时namenode要和datanode不断地进行通信。所以必须使得namenode能够无密码自动登录到各个datanode上。
     1、在namenode上,执行ssh-keygen-t rsa -P '' -f ~/.ssh/id_rsa,直接回车,完成后会在~/.ssh/生成两个文 件:id_rsa和id_rsa.pub,这两个文件相当于钥匙(id_rsa)和锁(id_rsa.pub),把锁(id_rsa.pub)追加到授权key(authorized_keys文件)里面。完成后可以实现无密码登陆本机:ssh localhost
     2、将namenode 上的authorized_keys文件传输到各datanode中的同一目录下(~/.ssh/目录),然后可以实现namenode无密码登录到任何datanode上。输入如下命令测试:ssh 用户名@datanode的IP地址。

二、hadoop的配置
    1、hadoop-env.sh的配置
           配置jdk所在的根目录,在hadoop-env.sh中添加:export JAVA_HOME=你的JDK根目录 即可。
    2、hadoop-site.xml的配置
           根据本人不断地实验,要想确保集群的稳定运行,在hadoop-site文件中必须配置如下的属性
            <property>
                <name>fs.default.name</name>
              <value>hdfs://namenode的IP地址:四位的端口号< /value>
            </property>
            <property>
                <name>dfs.datanode.handler.count</name>
                <value>1< /value>  
            </property>            
            <property>
                <name>dfs.replication</name>
                <value>1< /value>
            </property>
            <property>
                <name>mapred.job.tracker</name>
                <value>namenode的IP地址:四位的端口号(和上面不同)< /value>
            </property>
            <property>
                <name>hadoop.tmp.dir</name>
                <value>路径1</value>
            <property>
            <property>
               <name>dfs.name.dir</name>
               <value>路径2</value>
            <property>
            <property>
               <name>dfs.data.dir</name>
               <value>路径3</value>
            <property>
            <property>
               <name>mapred.local.dir</name>
               <value>路径4</value>
            <property>
   3、hadoop传输
         将配置好的hadoop由namennode上传输到各个datanode上,即执行:"scp -rp  hadoop-0.19.0  用户名@datanode的IP地址:特定目录"
         需要注意的是,hadoop在各个机器上的目录结构,必须完全一致。
三、集群的测试
     在namenode上,进入hadoop的主目录,依次执行如下命令进行测试
     1、 bin/hadoop namenode -format :格式化操作
     2、bin/start-all.sh  :开启集群,启动jobtracker,tasktracker,namenode,datanode,secondnamenode守护进程
     3、jps :查看守护进程是否已经启动,如果配置无任何问题的话,以上的五个守护进程已经启动成功了。
     4、运行示例程序wordcount
           创建目录:mkdir input
           进入目录:cd input
           创建两个文件:echo "hello world,hello hadoop">a.txt;echo "hello world,hello hadoop">b.txt
           上传input目录:bin/hadoop fs -copyFromLocal input input
           执行程序:bin/hadoop jar hadoop-0.19.0-examples.jar wordcount /user/你的用户名/input /user/你的用户名/output
           下载结果:bin/hadoop fs -copyToLocal output output
           查看结果 cat output/*
     5、通过Web UI查看集群的状态:
            jobtraker的情况: http://namenode的ip地址:50030;
            hdfs的情况:http://namenode的ip地址:50070;
            tasktracker的情况:http://datanode的ip地址:50060.
     6、bin/stop-all.sh:关闭集群,停止守护进程.

分享到:
评论

相关推荐

    大数据 hadoop-3.1.3 linux 安装包

    在Linux环境下安装Hadoop-3.1.3时,首先需要确保系统满足基本的硬件和软件要求,如Java运行环境(JRE)和Java开发工具集(JDK)。安装JDK后,设置环境变量`JAVA_HOME`指向JDK的安装路径。 接下来,下载Hadoop-3.1.3...

    hadoop-eclipse-plugin1.2.1 and hadoop-eclipse-plugin2.8.0

    只需将jar文件(如hadoop-eclipse-plugin-2.8.0.jar)复制到Eclipse的plugins目录下,然后重启Eclipse,即可在“New Project”中看到Hadoop相关的项目类型。在创建新项目时,可以指定Hadoop的配置文件路径,插件会...

    hadoop-2.7.7 linux安装包

    此文件为hadoop-2.7.7.tar.gz,可在linux下直接进行安装,如在windows上安装,则需要hadooponwindows-master.zip,用windows-master里的文件替换解压好后hadoop的bin和etc即可。Hadoop 2.7.7是一款开源的分布式计算...

    hadoop插件apache-hadoop-3.1.0-winutils-master.zip

    总之,`apache-hadoop-3.1.0-winutils-master.zip`提供了一种在Windows环境下运行Hadoop的途径。尽管有一些额外的挑战,但通过正确配置和理解这些核心概念,你可以在Windows上构建一个功能完备的Hadoop集群。这对于...

    Hadoop-0.21.0分布式集群配置

    Hadoop-0.21.0分布式集群配置.doc

    hadoop-eclipse-plugin-3.1.1.tar.gz

    Hadoop-Eclipse-Plugin-3.1.1是一款专为Eclipse集成开发环境设计的插件,用于方便地在Hadoop分布式文件系统(HDFS)上进行开发和调试MapReduce程序。这款插件是Hadoop生态系统的组成部分,它使得Java开发者能够更加...

    hadoop-3.3.4 版本(最新版)

    Apache Hadoop (hadoop-3.3.4.tar.gz)项目为可靠、可扩展的分布式计算开发开源软件。官网下载速度非常缓慢,因此将hadoop-3.3.4 版本放在这里,欢迎大家来下载使用! Hadoop 架构是一个开源的、基于 Java 的编程...

    apache-hadoop-3.1.0-winutils-master本地开发调试.zip

    5. **配置Hadoop**:根据Hadoop的官方文档,配置`hadoop-env.cmd`文件,指定Java的路径,并可能需要调整其他配置以适应Windows环境。 6. **格式化NameNode**:在命令行中使用`hdfs namenode -format`命令对NameNode...

    hadoop-common-2.6.0-bin-master.zip

    `hadoop-common-2.6.0-bin-master.zip` 是一个针对Hadoop 2.6.0版本的压缩包,特别适用于在Windows环境下进行本地开发和测试。这个版本的Hadoop包含了对Windows系统的优化,比如提供了`winutils.exe`,这是在Windows...

    hadoop-lzo-0.4.20.jar

    hadoop2 lzo 文件 ,编译好的64位 hadoop-lzo-0.4.20.jar 文件 ,在mac 系统下编译的,用法:解压后把hadoop-lzo-0.4.20.jar 放到你的hadoop 安装路径下的lib 下,把里面lib/Mac_OS_X-x86_64-64 下的所有文件 拷到 ...

    apache-hadoop-3.1.3-winutils-master.zip

    在这个"apache-hadoop-3.1.3-winutils-master.zip"压缩包中,包含了在Windows环境下配置Hadoop HDFS客户端所需的组件,特别是`hadoop-winutils`和`hadoop.dll`这两个关键文件,它们对于在Windows系统上运行Hadoop...

    hadoop-2.7.7linux安装包(官网)

    此文件为hadoop-2.7.7.tar.gz,可在linux下直接进行安装,如在windows上安装,则需要hadooponwindows-master.zip,用windows-master里的文件替换解压好后hadoop的bin和etc即可。

    好用的hadoop-eclipse-plugin-2.6.4.jar

    为了方便开发者在Eclipse环境中进行Hadoop应用程序的开发,Apache社区提供了Hadoop-Eclipse-Plugin插件,其版本号为2.6.4,是我们今天讨论的重点。这个插件大大简化了Hadoop项目创建、调试和部署的过程,提高了开发...

    hadoop-eclipse-plugin-3.3.1.jar

    Ubuntu虚拟机HADOOP集群搭建eclipse环境 hadoop-eclipse-plugin-3.3.1.jar

    hadoop-eclipse-plugin-3.1.3.jar

    hadoop-eclipse-plugin-3.1.3,eclipse版本为eclipse-jee-2020-03

    hadoop-3.3.1 windows + apache-hadoop-3.1.0-winutils-master.zip

    3. **配置Hadoop**:在Hadoop的conf目录下,编辑`core-site.xml`,设置HDFS的默认FS(如`fs.defaultFS`为`hdfs://localhost:9000`),以及临时目录(如`hadoop.tmp.dir`为`C:\Hadoop\tmp`)。然后编辑`hdfs-site.xml...

    hadoop-eclipse插件各版本合集

    Hadoop-Eclipse插件是Apache Hadoop项目与Eclipse IDE集成的一个重要工具,它使得Hadoop开发者能够在Eclipse环境中直接创建、编辑、调试和管理Hadoop MapReduce作业,极大地提升了开发效率。本合集包含了多个版本的...

    Hadoop-eclipse-plugin-2.7.6下载与说明

    Hadoop-eclipse-plugin是Hadoop生态系统中的一个重要工具,它允许开发者使用Eclipse IDE直接在Hadoop集群上开发、测试和部署MapReduce程序。这个插件极大地简化了Hadoop应用程序的开发流程,使得Java开发者能够利用...

    hadoop-2.7.3.tar.gz 下载 hadoop tar 包下载

    在下载hadoop-2.7.3.tar.gz这个压缩包后,用户可以解压得到Hadoop的源代码、配置文件、可执行二进制文件等。解压命令通常是在终端输入`tar -zxvf hadoop-2.7.3.tar.gz`。解压后,用户需要根据自己的系统环境进行适当...

    eclipse运行mr插件hadoop-eclipse-plugin-2.6.0.jar

    本文将深入探讨如何使用Eclipse IDE结合hadoop-eclipse-plugin-2.6.0.jar插件,实现在Windows环境下进行远程连接到Hadoop集群,尤其适用于64位操作系统。 首先,我们要理解Hadoop的核心概念。Hadoop是由Apache基金...

Global site tag (gtag.js) - Google Analytics