`
han_zw
  • 浏览: 174178 次
  • 性别: Icon_minigender_1
  • 来自: 天津
社区版块
存档分类
最新评论

伪分布式hadoop 2.x安装部署

 
阅读更多

在个人虚拟机上搭建hadoop的运行环境的笔记。

背景信息:部署版本采用了hadoop 2.6.3;操作系统为centos ,内核2.6.32-504.3.3.el6.x86_64;系统已经正确安装了jdk,本次选定版本为jdk7u79.

 

一、解压部署

1. 下载hadoop 2.6.3 安装包 hadoop-2.6.3.tar.gz,下载页面:http://hadoop.apache.org/releases.html

解压到目录:/home/hanzhiwei/app/hadoop下

2. 设定HADOOP_HOME环境变量

 

在~/.bash_profile文件中添加hadoop的环境变量

export JAVA_HOME=/home/hanzhiwei/app/java/jdk1.7.0_79
PATH=$PATH:$HOME/bin:$JAVA_HOME/bin:$MAVEN_HOME/bin:$HADOOP_HOME/bin
export HADOOP_HOME=/home/han/app/hadoop/hadoop-2.6.3
export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native

 

为了让设置及时生效,执行source ~/.bash_profile

 

二、修改配置文件

1. 进入${HADOOP_HOME}/etc/hadoop/目录,重命名mapred-site.xml.templat 为  mapred-site.xml,并在其中添加如下配置项

<property>
        <name>mapreduce.framework.name</name>
        <value>yarn</value>
</property>

 

2. 修改core-site.xml ,添加如下内容

<property>
    <name>fs.default.name</name>
    <value>hdfs://{YARNSERVER}:8020</value>
 </property>

 {YARNSERVER}为部署机器的host或者ip,按照实际情况替换即可。

 

 因为采用了个人虚拟机部署,为了避免每次重启虚拟机后启动hadoop出现各种问题,将hadoop的tmp目录指向了非系统/tmp目录.加入如下配置项

<property>
        <name>hadoop.tmp.dir</name>
        <value>/home/han/data/hadoop/tmp</value>
 </property>

 

3. 修改yarn-site.xml 文件,添加如下内容

<property>
<name>yarn.nodemanager.aux-services.mapreduce_shuffle.class</name>
<value>mapreduce_shuffle</value>
 <description>shuffle service that needs to be set for Map Reduce to run </description>
</property>

 

 为了能够运行mapreduce程序,需要让各个nodemanager在启动时加载shuffle server,shuffle server实际上市jetty/netty server,reduce task通过该server从各个nodemanager上远程复制map task产生的中间结果。

 

4. 修改hdfs-site.xml,添加如下内容

<property>
        <name>dfs.replication</name>
        <value>1</value>
</property>

 因为是部署环境就一台机器,设置副本数是1.

 

三、设置免密登录

1. 用户目录下执行 ssh-keygen -t rsa, 将会在~/.ssh/下生成公钥文件id_rsa.pub和私钥文件id_rsa

2. 将公钥文件中的内容复制到相同目录下的authorized_keys文件中:

 

cat id_rsa.pub >> authorized_keys

 

四、启动hadoop

1. 格式化 hdfs

${HADOOP_HOME}/bin/hadoop namenode -format

2. 启动hdfs

${HADOOP_HOME}/sbin/hadoop-daemon.sh start namenode
${HADOOP_HOME}/sbin/hadoop-daemon.sh start datanode

3. 启动yarn

sbin/yarn-daemon.sh start resourcemanager
sbin/yarn-daemon.sh start nodemanager

 

4. 验证是否启动正常。

    * jps验证进程

$ jps
22581 ResourceManager
23455 Jps
22332 NameNode
22452 DataNode
23319 NodeManager

 * 通过URL查看yarn的web页面

http://localhost:8088/



 

* 验证hdfs命令 :hdfs fs -ls /

我在这步操作时遇到如下警告:

WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable

这个是因为$HADOOP_HOME/lib/native/libhadoop.so.1.0.0是在32位环境编译的,当前centos系统是64位的。这个警告并不影响hadoop的功能,可以忽略。如果要想去掉的话,需要重新从源码编译,具体操作可以参考:

 

http://www.ercoppa.org/Linux-Compile-Hadoop-220-fix-Unable-to-load-native-hadoop-library.htm

 

 

 

  • 大小: 56.6 KB
分享到:
评论

相关推荐

    Hadoop3.x系统文档

    比如,在伪分布式模式下,原2.x版本通常使用的9000端口,在Hadoop 3.0中更改为了9820端口。这一改变是重要的,因为它会影响客户端和集群中各个服务的通信。文档中提到了端口变化的详细说明链接,指引用户访问以获取...

    1.Hadoop入门进阶课程_第1周_Hadoop1.X伪分布式安装.pdf

    ### Hadoop 1.X 伪分布式安装知识点概览 #### 1. Hadoop 简介 - **定义**: Apache Hadoop 是一个开源框架,它允许开发者通过简单的编程模型来处理大量的数据集,并且能够在集群服务器上进行分布式处理。 - **特点**...

    hadoop-0.20.205.0和hbase-0.90.5,集群和单机 安装配置

    Hadoop是一种能够存储和处理大量数据的分布式计算框架,而HBase则是在Hadoop之上构建的一个分布式列式存储系统。本文将详细介绍如何在三台虚拟机上安装配置Hadoop-0.20.205.0和HBase-0.90.5,包括单机模式和集群模式...

    Hadoop伪分布式.rar

    在部署Hadoop伪分布式环境时,我们首先要安装JDK,然后解压并配置Hadoop。接下来,启动NameNode、DataNode、ResourceManager和NodeManager等Hadoop服务。这些服务的启动可以通过执行Hadoop的bin目录下的脚本来完成。...

    hadoop-2.x的环境搭建

    本文将详细阐述如何搭建Hadoop 2.x的环境,这包括单节点模式、伪分布式模式以及完全分布式模式的安装与配置,同时也涵盖了Hadoop生态系统中其他重要组件的安装。 一、Hadoop简介 Hadoop是基于Java开发的,它由...

    第2章-hadoop安装.docx

    在单机伪分布式配置中,所有服务都在同一台机器上运行,这对于学习和测试Hadoop的基本功能非常方便。在实际生产环境中,Hadoop通常会部署在多台机器上,形成集群,以实现更高的可用性和扩展性。 总之,安装Hadoop...

    spark-2.3.1-bin-hadoop2.7.rar

    - 使用`spark-submit`命令提交你的应用程序到本地模式、伪分布式模式或完全分布式模式的Spark集群。 总之,Spark 2.3.1是一个强大且易用的大数据处理工具,它简化了在Windows上的部署过程,使得开发者和数据科学家...

    大数据Hadoop3.x全套视频资料

    - **伪分布式模式**:适用于开发调试环境,每个进程都运行在一个独立的Java进程中。 - **完全分布式模式**:适用于生产环境,各个进程分布在不同的物理节点上。 - **配置文件**: - **core-site.xml**:包含...

    Hadoop2.7.2伪分布部署

    伪分布式部署是Hadoop学习和开发中常用的一种部署方式,它使得开发者能够在单机环境下模拟分布式计算场景。配置JDK、创建hadoop用户、安装SSH服务、配置无密码SSH登录以及正确选择Hadoop版本是整个部署过程中的关键...

    大数据及实验报告.docx

    3. Hadoop 介绍及 1.X 伪分布式安装 4. Hadoop2.X 64 位编译 5. Hadoop2.X 64 位环境搭建 实验步骤包括: 1. hadoop 三种安装模式介绍 2. hadoop 配置文件介绍及修改 3. hdfs 格式化 4. 启动 hadoop 进程 5. 验证...

    hadoop-3.2.2.tar.gz.7z

    5. **Hadoop运行模式**:Hadoop支持本地模式、伪分布式模式和完全分布式模式。本地模式主要用于单机调试,不涉及网络通信;伪分布式模式在一个节点上模拟分布式环境,所有Hadoop组件都运行在同一台机器上;完全...

    linux虚拟机搭建hadoop伪分布式集群

    在搭建Hadoop伪分布式集群的过程中,首先需要在Linux环境下配置VMware的NAT网络,确保虚拟机能够稳定地运行和通信。NAT网络允许虚拟机通过宿主机与外部网络进行通信,同时保持IP地址的固定性。具体操作包括取消DHCP...

    分布式集群技术.pdf

    Hadoop 离线计算是分布式集群技术的基础,Hadoop2.x 集群搭建、NameNode 的高可用性(HA)、HDFS Federation、ResourceManager 的高可用性(HA)、Hadoop 集群常见问题和解决方法、Hadoop 集群管理等内容将为读者...

    新版Hadoop视频教程 段海涛老师Hadoop八天完全攻克Hadoop视频教程 Hadoop开发

    第一天 hadoop的基本概念 伪分布式hadoop集群安装 hdfs mapreduce 演示 01-hadoop职位需求状况.avi 02-hadoop课程安排.avi 03-hadoop应用场景.avi 04-hadoop对海量数据处理的解决思路.avi 05-hadoop版本选择和...

    [Hadoop] 传智播客新版Hadoop视频教程 段海涛老师Hadoop八天完全攻克Hadoop视频教程 Hadoop开发

    第一天 hadoop的基本概念 伪分布式hadoop集群安装 hdfs mapreduce 演示 第二天 hdfs的原理和使用操作、编程 第三天 mapreduce的原理和编程 第四天 常见mr算法实现和shuffle的机制 第五天 hadoop2.x中HA机制的...

    Windows下idea运行spark程序相关的hadoop2.7.3插件工具 hadoop.dll winutils.exe

    在Spark运行时,它用于配置Hadoop的相关路径,比如HADOOP_HOME和HADOOP_OPTS,这对于本地模式或伪分布式模式运行Spark至关重要。 为了在IntelliJ IDEA(简称IDEA)中顺利运行Spark程序,我们需要确保正确地配置了...

Global site tag (gtag.js) - Google Analytics