`

Hadoop 2.x单节点部署学习。

 
阅读更多

 

 

1 环境 hadoop-2.5.2  ubuntu 64位服务器  jdk1.7.0_72(tar文件,直接解压到usr/local ,配置环境变量)

2 所需要的软件,不同linux安装软件方式可能不一样 :

  $ sudo apt-get install ssh

  $ sudo apt-get install rsync

3 下载hadoop:http://www.apache.org/dyn/closer.cgi/hadoop/common/

4 解压hadoop 到要安装的目录

5 编辑hadoop所需要环境 etc/hadoop/hadoop-env.sh

  其中jdk环境设置成自己安装的绝对路径,不能用环境变量的代替

6  执行 bin/hadoop  ,会打印一些hadoop的一些执行参数信息,安装完成 

 

hadoop三种模式:1 本地模式  2 伪分布模式  3 分布模式 

一、hadoop模式就是本地模式,作为java的一个进程

   在/web/hadoop 这个目录中执行 

  $ mkdir input

  $ cp etc/hadoop/*.xml input

  $ bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.1.jar grep input output 'dfs[a-z.]+'

  $ cat output/*

二、伪分布模式

  hadoop每个进程运行在单独的java线程中  

  1)配置 etc/hadoop/core-site.xml 

   

<configuration>
   <property>
    <name>fs.defaultFS</name>
    <value>hdfs://localhost:9000</value>
   </property>

 <property>
    <name>hadoop.tmp.dir</name>
    <value>/web/hadoop-2.5.2/tmp/hadoop-${user.name}</value>
    <description>临时文件的目录,根据情况修改.</description>
 </property>
</configuration>

 

 

   2)配置etc/hadoop/hdfs-site.xml 

  

<configuration>
   <property>
      <name>dfs.replication</name>
      <value>1</value>
   </property>
</configuration>

 

 

   3)检查ssh是否可以无密码登录 到本机

$ ssh localhost 

如果需要输入密码则需要设置无密码登录 

$ ssh-keygen -t dsa -P '' -f ~/.ssh/id_dsa

$ cat ~/.ssh/id_dsa.pub >> ~/.ssh/authorized_keys

$ export HADOOP\_PREFIX=/usr/local/hadoop

    4)格式化文件系统,系统会清理临时文件目录,并重新生成一些目录 

      bin/hdfs namenode -format 

      或 bin/hadoop namenode -format  (配置环境变量以后可以直接用hadoop来执行命令不使用目录)

     格式化过程会创建hadoop.tmp.dir 指定的数据文件目录,并且会产生管理datanode元数据的文件 

    5) 开启名称节点线程和数据节点进程

      $ sbin/start-dfs.sh

     

      启动过程看log是否有错误: $HADOOP_HOME/logs

    6) 将地址换成hadoop的ip地址然后在浏览器中访问下面地址,可以浏览文件系统的一些信息:

     集群监控:    http://localhost:50070/

      mapreduce监控:   http://cloud1:8088/ 

    7) 创建mapreduce所需要的目录 

$ bin/hdfs dfs -mkdir /user

$ bin/hdfs dfs -mkdir /user/root(用户名)

拷贝目录文件到文件系统中 

$ bin/hdfs dfs -put etc/hadoop input

运行mapreduce例子,注意修改jar版本

        $ bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.1.jar grep input output 'dfs[a-z.]+'

检查输出文件

$ bin/hdfs dfs -cat output/*

     8)停止dfs进程  $ sbin/stop-dfs.sh 

 

三、伪分布模式下在YARN中运行MapReduce job 

  1)etc/hadoop/mapred-site.xml 

  

<configuration>
   <property>
     <name>mapreduce.framework.name</name>
     <value>yarn</value>
   </property>
</configuration>

 

</configuration>

   2)etc/hadoop/yarn-site.xml ,resourceManager和NodeManager的配置

       Map程序产生的数据以shuffle形式传给reduce  

       resourceManager访问地址

       

<configuration>

<!-- Site specific YARN configuration properties -->
    <property>
        <name>yarn.nodemanager.aux-services</name>
        <value>mapreduce_shuffle</value>
    </property>
      <property>
        <name>yarn.resourcemanager.hostname</name>
        <value>cloud1</value>
    </property>
 
</configuration>

 

 

   3)启动ResourceManager 和NodeManager 线程

    $ sbin/start-yarn.sh

 

   4)执行例子程序 

      hadoop jar hadoop-mapreduce-examples-2.4.1.jar wordcount /wordcount/input /wordcount/output 

    

 

 

环境变量设置:

  

export HADOOP_PREFIX=/web/hadoop-2.5.2
export PATH=$PATH:$HADOOP_PREFIX/bin
export PATH=$PATH:$HADOOP_PREFIX/sbin
export HADOOP_MAPRED_HOMD=${HADOOP_PREFIX}
export HADOOP_COMMON_HOME=${HADOOP_PREFIX}
export HADOOP_HDFS_HOME=${HADOOP_PREFIX}
export YARN_HOME=${HADOOP_PREFIX}
export HADOOP_CONF_DIR=${HADOOP_PREFIX}/etc/hadoop
export HDFS_CONF_DIR=${HADOOP_PREFIX}/etc/hadoop
export YARN_CONF_DIR=${HADOOP_PREFIX}/etc/hadoop

 

 

 

查看hdfs中所有的目录: bin/hdfs dfs -lsr /

运行dfs和yarn后, 执行jdk下面的jps命令,查看java线程会有以下线程,则运行成功 

  

7313 SecondaryNameNode
7570 NodeManager
7467 ResourceManager
7129 DataNode
7029 NameNode
7675 Jps

 

 

来源: 

http://hadoop.apache.org/docs/current/hadoop-project-dist/hadoop-common/SingleCluster.html#Standalone_Operation

 

 

 

分享到:
评论

相关推荐

    hadoop2.X新特性介绍

    ### Hadoop2.X 新特性详解 #### Hadoop1.0 的局限性 Hadoop1.0作为初代的大数据处理框架,在数据存储和处理方面取得了显著成就,但也暴露出了一系列问题,主要包括: - **HDFS(Hadoop Distributed File System)...

    hadoop3.x盘地址及官方其他版本下载地址.rar

    1. **多名称节点(Multi-Namenode)**:Hadoop 3.x引入了活性名称节点(Active NN)和热备份名称节点(Standby NN)的架构,提高了名称节点的可用性和容错性,减少了单点故障的风险。 2. **更大块大小**:Hadoop 3....

    hadoop2.x 安装文档

    ### Hadoop 2.x 安装与配置详解 #### 一、准备工作 在开始Hadoop 2.x集群的搭建之前,需要确保以下条件已经满足: 1. **操作系统环境**: 所有的服务器节点均应安装Linux操作系统。 2. **Java Development Kit ...

    Hadoop 2.x与3.x 22点比较,Hadoop 3.x比2.x的改进

    16. 可扩展性:Hadoop 3.x能够更好地扩展,支持超过10,000个节点的集群,相比于Hadoop 2.x,这一改进为大规模集群部署提供了可能。 17. 高可用性:Hadoop 3.x保持了高可用性设计,通过优化改进,能更有效地处理节点...

    Hadoop2.x版本完全分布式安装与部署

    本文将详细介绍Hadoop 2.x版本在完全分布式环境下的安装与部署过程。 首先,搭建Hadoop完全分布式环境需要准备硬件环境。在这个案例中,需要准备三台安装有CentOS操作系统的机器。三台节点机需保证相互之间可以被...

    spark-3.1.3-bin-hadoop3.2.tgz

    此外,Spark 还提供了SQL查询支持(通过Spark SQL),流处理(Spark Streaming),机器学习库(MLlib)以及图形处理(GraphX)等功能,使其成为全方位的大数据处理平台。 在Spark 3.1.3中,可能包含以下关键改进和...

    CentOS7 Hadoop 2.7.X 安装部署.rar

    在本教程中,我们将深入探讨如何在CentOS7操作系统上安装和部署Hadoop 2.7.x版本。Hadoop是一个开源的分布式计算框架,广泛应用于大数据处理和存储。以下是详细的步骤和注意事项,确保您能够成功地搭建起一个运行在...

    大数据系列-Hadoop 2.0

    0103 高级Hadoop 2.x、0102 深入Hadoop 2.x这两部分可能涉及更深层次的Hadoop技术,如Hadoop生态系统的其他组件(如Hive、Pig、Spark),Hadoop的安全管理,以及高级优化技巧。 总之,Hadoop 2.0作为一个全面的...

    spark-3.1.2-bin-hadoop3.2.tgz

    2. **Resilient Distributed Datasets (RDD)**:RDD是Spark的基本数据结构,它是不可变、分区的元素集合,能够在集群中的节点上分布式存储。 3. **弹性**:Spark提供了容错机制,当工作节点失败时,可以自动恢复丢失...

    spark-3.1.2.tgz & spark-3.1.2-bin-hadoop2.7.tgz.rar

    - spark-3.1.2-bin-hadoop2.7.tgz:这个版本除了包含基本的Spark组件外,还集成了Hadoop 2.7的二进制依赖,方便在Hadoop集群上直接部署和运行Spark应用。 5. 安装与运行: - 解压:使用tar命令解压tgz文件,rar...

    Hadoop单节点部署指导

    ### Hadoop单节点部署指导知识点详解 #### 一、实验目的 - **理解Hadoop原理机制**:深入了解Hadoop的工作原理及其背后的技术架构。 - **熟悉Hadoop集群体系结构**:掌握Hadoop集群中各组成部分的功能及其交互方式...

    hadoop-2.x的环境搭建

    本文将详细阐述如何搭建Hadoop 2.x的环境,这包括单节点模式、伪分布式模式以及完全分布式模式的安装与配置,同时也涵盖了Hadoop生态系统中其他重要组件的安装。 一、Hadoop简介 Hadoop是基于Java开发的,它由...

    董西成主讲Hadoop 2.X大数据平台V3 全套pdf

    《董西成主讲Hadoop 2.X大数据平台V3 全套pdf》是一份全面讲解Hadoop 2.x版本大数据平台的教程资料,由知名讲师董西成主讲。这套教程涵盖了Hadoop生态系统中的核心组件,包括HDFS、YARN、MapReduce2、HBase、...

    Docker Swarm部署Hadoop3.x + HBase2.x真正分布式集群环境配置参考资源

    采用Docker Swarm集群方式, 部署Hadoop3.x + HBase2.x的真正分布式集群环境,趟坑无数, 配置文件已整理好,内置Dockerfile构建文件、docker-compose脚本文件、hbase安装包、hadoop配置文件等。可以根据生产环境, ...

    spark-2.4.4-bin-hadoop2.6.tgz

    总的来说,"spark-2.4.4-bin-hadoop2.6.tgz"这个压缩包是开发和部署大数据应用的重要资源,涵盖了Spark的主要组件和针对Hadoop 2.6的优化,使得数据处理变得更加高效和便捷。无论是数据科学家、工程师还是分析师,都...

    hadoop 2.x 版本概要讲解,HA搭建指南

    安装 jdk 后出现 bash: ./java: /lib/ld-linux.so.2: 错误 安装 JDK 后,在执行 Java 相关命令时可能会遇到类似错误。这通常是由于系统缺少必要的动态链接库或路径设置不正确导致的。解决方法可以包括安装缺失的库...

    大数据Hadoop3.x全套视频资料

    ### 大数据Hadoop3.x全套视频资料知识点详解 #### 一、大数据概览 - **定义**:大数据是指无法用传统...通过深入学习Hadoop3.x的相关知识和技术,可以帮助我们更好地应对日益增长的数据挑战,实现数据价值的最大化。

    hadoop-0.20.205.0和hbase-0.90.5,集群和单机 安装配置

    在Master节点上运行`hadoop namenode -format`命令来格式化HDFS。 #### 七、配置HBase 1. **安装HBase**: 下载并解压HBase安装包至相应目录。 2. **配置HBase环境**: 修改`$HBASE_HOME/conf/hbase-env.sh`文件,...

    Hadoop2.10.1.tar.gz

    在Hadoop 2.x系列中,最重要的改进是对YARN(Yet Another Resource Negotiator)的引入,它是Hadoop的资源管理系统,负责集群资源的分配和调度,提高了系统的资源利用率和灵活性。相较于早期的Hadoop 1.x,YARN将...

Global site tag (gtag.js) - Google Analytics