`
eksliang
  • 浏览: 598893 次
  • 性别: Icon_minigender_1
  • 来自: 广州
社区版块
存档分类
最新评论

Hadoop2.5.2安装——伪分布式模式

阅读更多

转载请出自出处:http://eksliang.iteye.com/blog/2191493

一、下载hadoop的的部署文件

我这里是使用当前的最高版本:2.5.2下载地址

http://mirrors.cnnic.cn/apache/hadoop/common/hadoop-2.5.2/

部署hadoop伪分布式之前,请确保当前系统已经安装了jdk

二、新建hadoop用户

     当然你也可以使用root用户直接干,所以这步不是必须的,但是还是建议这么干。

    

 useradd hadoop --新建hadoop用户
 passwd hadoop  --设置hadoop用户的密码

 

三、免密码ssh设置

 切换到hadoop用户执行

 /usr/bin/ssh-keygen -t rsa  --执行完这句,按三次回车即可生成公钥与私钥
 cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys
 chmod 600 ~/.ssh/authorized_keys

 验证hadoop用户的ssh免登录认证

ssh localhost

 执行完后,没有提示输入密码,变切换到了hadoop用户的用户目录说明配置成功

 

 

四、安装Hadoop 2.5.2

1)将下载的hadoop-2.5.2.tar.gz安装包,解压到hadoop的用户目录(/home/hadoop)

[hadoop@localhost ~]$ tar -xzv -f hadoop-2.5.2.tar.gz 

 

2)修改配置文件

hadoop可以在单节点上以伪分布式的方式运行,Hadoop进程以分离的Java进程来运行,节点即NameNode也是DataNode。需要修改2个配置文件etc/hadoop/core-site.xml和etc/hadoop/hdfs-site.xml。

  • core-site.xml修改如下:
<configuration>
        <property>
          <name>fs.defaultFS</name>
          <value>hdfs://127.0.0.1:9000</value>
        </property> 
</configuration>

Hadoop自升级到2.x版本之后,有很多属性的名称已经被遗弃了,虽然这些被遗弃的属性名称目前还可以用,但是这里还是建议用新的属性名,主要遗弃的属性名称参考下面地址:http://www.iteblog.com/archives/923

(上面的fs.defaultFS在老版本中使用fs.default.name,现在还是可以用的,但是建议使用新的

 

  配置说明:添加hdfs的指定URL路径,由于是伪分布模式,所以配置的是本机IP ,可为真实Ip、localhost。

  • hdfs-site.xml修改如下:
<configuration>
    <property>
         <name>dfs.replication</name>
         <value>1</value>
    </property>
    <property>
       <name>dfs.namenode.name.dir</name>
       <value>file:/home/hadoop/dfs/name</value>
    </property>
    <property>
       <name>dfs.datanode.data.dir</name>
       <value>file:/home/hadoop/dfs/data</value>
    </property>
</configuration>

 配置说明:主要是对namenode 和 datanode 存储路径的设置。其实默认是存储在file://${hadoop.tmp.dir}/dfs/name和data 下的。所以这里也不需配置的。但默认的是临时文件,重启就没有了,所以我这里还是设置了专门的路径保存。

  •  将mapred-site.xml.template重命名为mapred-site.xml,并添加如下内容

    目的:告诉hadoop,MapReduce是运行在yarn这个框架上

<property>
       <name>mapreduce.framework.name</name>
        <value>yarn</value>
 </property>
  •  yarn-site.xml

 

<property>
	<name>yarn.nodemanager.aux-services</name>
	<value>mapreduce_shuffle</value>
</property>

 

3)为hadoop指定jdk

修改etc/hadoop/hadoop-env.sh 文件,如下所示:

#export JAVA_HOME=${JAVA_HOME} --原来
export JAVA_HOME=/usr/local/jdk1.7.0_67 --修改后

 这步网上很多教程没有,但是我试过,虽然配置了环境jdk的环境变量,但是在启动hadoop时,会提示找不到jdk,所以这里改成决定路径就可以了。

 

 

5)2.5.0后需要添加环境变量

    在当前hadoop用户下面编辑$ vim ~/.bashrc添加如下代码

export HADOOP_HOME=/home/hadoop/hadoop-2.5.2
export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native
export HADOOP_OPTS="-Djava.library.path=$HADOOP_HOME/lib"

 

五、启动haoop

  • 切换到该安装目录下,首先格式化 namenode
bin/hdfs namenode -format
  •  开启NaneNode和DataNode守护进程
sbin/start-dfs.sh
  •  成功启动后,可以通过命令jps看到启动了如下进程NameNode、DataNode和SecondaryNameNode。
[hadoop@localhost hadoop]$ jps
12321 DataNode
12210 NameNode
13210 Jps
12555 SecondaryNameNode

 此时可以访问Web界面http://localhost:50070来查看Hadoop的信息。如下所示:


  • 结束Hadoop进程,则切换到haood的安装目录执行
sbin/stop-dfs.sh

   温馨提示:下次再启动hadoop,无需进行HDFS的初始化,只需要运行 sbin/stop-dfs.sh 就可以!

  •  启动yarn,切换到hadoop的部署目录执行
$ sbin/start-yarn.sh

   再次查看使用jps查看java的后台进程可以看到如下所示:NodeManager跟ResourceManager进程

$ jps
27021 DataNode
27191 SecondaryNameNode
26899 NameNode
27367 ResourceManager
27487 NodeManager
28043 Jps

此时可以用过Web界面来查看NameNode运行状况,URL为 http://localhost:8088,如下图所示


  •  停止yarn的命令如下

   切换到部署hadoop的目录执行

$ sbin/stop-yarn.sh

 

六、运行实例

将文件上传到hdfs上面的实例如下:

  • 切换到该安装目录下,建立要上传到hadoop的两个文件 test1.txt、test2.txt 
mkdir input
cd input
echo "hello world" > test1.txt
echo "hello hadoop" > test2.txt
  •  把input目录中的文件拷贝到hdfs上,并保存在in目录中
bin/hadoop dfs -put input /in

其中/in 中的/ 是hdfs下的目录,不加/ 上传将报错。

  • 查看hdfs中的文件
bin/hadoop dfs -ls /in

   同时也可以通过http://127.0.0.1:50070 查看节点下的文件

  •  运行自带的workcount统计
bin/hadoop jar $HADOOP_HOME/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.5.2.jar worddount  /in /out 
  •  运行结果如下:



 

 

 

 参考资料:

http://hadoop.apache.org/docs/stable/hadoop-project-dist/hadoop-common/SingleCluster.html

http://www.cnblogs.com/xia520pi/archive/2012/05/16/2503949.html

hadoop启动命令与停止命令参考

http://book.2cto.com/201401/39823.html

  • 大小: 26.1 KB
  • 大小: 54.3 KB
  • 大小: 8.7 KB
分享到:
评论

相关推荐

    2、大数据环境-安装Hadoop2.5.2伪分布式傻瓜教程

    2、大数据环境-安装Hadoop2.5.2伪分布式傻瓜教程 原创

    云计算应用实验报告 武汉理工大学云计算应用 hadoop单机模式和伪分布式

    实验主题:武汉理工大学云计算应用 - Hadoop单机模式与伪分布式 **实验目的与意义:** 本次实验旨在让学生理解并掌握Hadoop的两种基础运行模式:单机模式和伪分布式模式。Hadoop是云计算领域的重要组件,主要用于大...

    Hadoop安装教程_单机_伪分布式配置

    本文档将详细介绍如何在Ubuntu 14.04环境下安装配置Hadoop 2.6.0版本,包括单机模式和伪分布式模式。无论您是初学者还是有一定经验的技术人员,本教程都将帮助您顺利完成Hadoop的安装和配置。 #### 二、环境准备 1....

    Hadoop技术-Hadoop伪分布式安装.pptx

    Hadoop技术-Hadoop伪分布式安装 Hadoop技术是当前大数据处理和存储领域中最流行的技术之一,Hadoop伪分布式安装是Hadoop技术中的一个重要组件。本文将详细介绍Hadoop伪分布式安装的步骤和配置过程。 一、Hadoop伪...

    Hadoop安装教程_单机/伪分布式配置_Hadoop2.7.1/Ubuntu 16.04

    本教程主要讲述了在 Ubuntu 16.04 环境下安装 Hadoop 2.7.1 的步骤,包括单机模式、伪分布式模式和分布式模式三种安装方式。以下是本教程的知识点总结: 1. 安装前的准备工作:创建 hadoop 用户,设置密码,增加...

    hadoop2.5.2的本地模式、伪分布式集群、分布式集群和HDFS系统的高可用的环境搭建.docx

    在搭建Hadoop 2.5.2环境的过程中,我们需要经历几个关键步骤,包括本地模式、伪分布式集群和分布式集群的设置,以及HDFS系统的高可用性配置。首先,确保你的系统已经安装了JDK 1.8,因为Hive等组件需要1.7以上的版本...

    虚拟机中hadoop2.6.0的安装与配置 (单机模式,伪分布式,完全分布式)

    虚拟机Ubuntu下hadoop2.6.0的安装与配置 (单机模式,伪分布式,完全分布式)非常详细的安装配置指南

    Hadoop安装教程_伪分布式配置_CentOS6.4_Hadoop2.61

    【Hadoop安装教程_伪分布式配置_CentOS6.4】 Hadoop是一个开源的分布式计算框架,由Apache基金会开发,主要用于处理和存储大规模数据。本教程针对的是在CentOS 6.4操作系统上安装Hadoop 2.6.0的伪分布式配置,这种...

    hadoop2.6 centos6.5 伪分布式环境部署 实例

    本文将详细介绍如何在 CentOS 6.5 环境中部署 Hadoop 2.6 伪分布式环境,包括环境准备、Hadoop 安装、配置和测试等步骤。 环境准备 在开始部署 Hadoop 之前,需要准备好 Linux 环境。这里选择 CentOS 6.5 作为操作...

    Hadoop3.1.3安装和单机/伪分布式配置

    - **掌握Hadoop3.1.3的安装与配置**:包括单机模式和伪分布式模式。 - **理解Hadoop的工作原理**:特别是其在不同模式下的运行机制。 - **熟悉Hadoop的常用操作**:如文件上传、数据处理等。 #### 二、实验原理 ##...

    Hadoop2.5.2搭建真分布式

    Hadoop2.5.2搭建真分布式,利用三台虚拟机搭建的简单真分布式例子

    eclipse开发hadoop2.5.2所用到都jar

    标题 "eclipse开发hadoop2.5.2所用到的jar" 指的是在Eclipse中进行Hadoop 2.5.2开发时所需的特定版本的JAR文件集合。这些JAR文件通常包括以下几个部分: 1. Hadoop Common:这是Hadoop的基础模块,包含了一般用途的...

    hadoop 2.X 伪分布式配置文件

    这个压缩包文件“hadoop 2.X 伪分布式配置文件”是为在单个机器上模拟Hadoop集群的伪分布式环境而设计的。这种环境对于学习、测试和调试Hadoop组件非常有用,因为它避免了实际分布式环境中的复杂性,同时保留了主要...

    从零起步搭建Hadoop单机和伪分布式开发环境图文教程.

    搭建Hadoop开发环境,无论是单机模式还是伪分布式模式,都需要准备一些基础软件和环境。单机模式仅用于开发和测试,它在本地运行所有Hadoop守护进程;伪分布式模式将守护进程部署在单个机器上,但是每个守护进程都...

    hadoop的独立模式、伪分布模式、完全分布式、HA配置文件

    在Hadoop生态系统中,了解和配置不同的运行模式是至关重要的,这些模式包括独立模式、伪分布模式、完全分布式模式以及高可用性(HA)配置。接下来,我们将详细探讨这些模式及其相关的配置文件。 1. **独立模式**: ...

    hadoop的伪分布式模式配置与安装伪分布式模式

    【标题】: "Hadoop伪分布式模式的配置与安装指南" 【内容】: Hadoop是一个开源的分布式计算框架,主要用于处理和存储大量数据。在学习和测试Hadoop时,我们通常会采用伪分布式模式,它在单个节点上模拟整个Hadoop...

    01-Hadoop安装手册(伪分布式).docx

    在本文中,我们将深入探讨如何在Linux环境下安装Hadoop的伪分布式模式,主要关注点在于准备阶段、系统配置、SSH免密码连接、JDK安装以及Hadoop的安装和配置。以下是对每个环节的详细说明: 1. **版本选择与服务器...

Global site tag (gtag.js) - Google Analytics