`

hadoop2.X环境搭建

 
阅读更多

Hadoop的安装配置

Hadoop所有版本:

http://archive.apache.org/dist/

1.查看防火墙开机启动状态

chkconfig iptables --list

关掉防火墙开机启动

chkconfig iptables off 

 

2.修改主机名

2.1 vim /etc/hosts

127.0.0.1   localhost localhost.localdomain localhost4 localhost4.localdomain4

::1         localhost localhost.localdomain localhost6 localhost6.localdomain6

192.168.122.128 nameNode

2.2 vim /etc

NETWORKING=yes

HOSTNAME=nameNode

3.安装jdk,并配置环境

export JAVA_HOME=/usr/java/jdk1.7.0_79

 

source /etc/profile (文件生效)

 

 

 

4.hadoop配置步骤:

/usr/hc/hadoop-2.2.0/etc/hadoop

4.1 /usr/hc/hadoop-2.2.0/etc/hadoop/hadoop-env.sh

修改内容:export JAVA_HOME=/usr/java/jdk1.7.0_79

4.2 /usr/hc/hadoop-2.2.0/etc/hadoop core-site.xml

修改内容

<configuration>

<!用来指定HDFS老大(NameNode)的地址-->

        <property>

             <name>fs.defaultFS</name>

             <value>hdfs://nameNode:9000</value>

       </property>

<!用来指定Hadoop运行时产生文件的存放目录-->

        <property>

            <name>hadoop.tmp.dir</name>

            <value>/usr/hc/hadoop-2.2.0/tmp</value>

        </property>

</configuration>

 

4.3 /usr/hc/hadoop-2.2.0/etc/hadoop/hdfs-site.xml

修改内容:

<configuration>

<!指定hDFS保存数据副本的数量(1表示伪分布式)-->

        <property>

            <name>dfs.replication</name>

            <value>1</value>

        </property>

</configuration>

 

4.4 /usr/hc/hadoop-2.2.0/etc/hadoop/mapred-site.xml 

mapred-site.xml.template重命名为mapred-site.xml

<configuration>

      <!--告诉hadoop以后MR运行在YARN-->

        <property>

             <name>mapreduce.framework.name</name>

             <value>yarn</value>

        </property>

</configuration>

 

4.5 /usr/hc/hadoop-2.2.0/etc/hadoop/yarn-site.xml

<configuration>

<!--NodeManager获取数据的方式是shuffle-->

    <property>

        <name>yarn.nodemanager.aux-services</name>

        <value>mapreduce_shuffle</value>

   </property>

<!--指定Yarn的老大(ResourceManager)的地址-->

    <property>

        <name>yarn.resourcemanager.hostname</name>

        <value>nameNode</value>

   </property>

<!-- Site specific YARN configuration properties -->

 

</configuration>

 

5.hadoop添加到环境变量中

/etc/profile修改如下

export JAVA_HOME=/usr/java/jdk1.7.0_79

export HADOOP_HOME=/usr/hc/hadoop-2.2.0

export PATH=$PATH:$JAVA_HOME/bin:$HADOOP_HOME/bin

再刷新

source /etc/profile

6.初始化HDFS (格式化文件系统

#hadoop namenode -format(过时了,但是依然可用)

hdfs namenode -format

 

6.1 启动HDFSYARN

./start-all.sh    

 (过时了This script is Deprecated. Instead use start-dfs.sh and start-yarn.sh)

#有个小问题:需要多次输入密码

6.2.可以通过浏览器的方式验证

http://192.168.122.128:50070 (hdfs管理界面)



 

6.3点击Browse the filesystem 出现文件管理界面



 

此时什么也没有,因为没有给hdfs存任何文件

http://192.168.122.128:8088 (yarn管理界面)

 

 

6.4 测试HDFS

#上传文件到hdfs

hadoop fs -put /usr/local/src/devsoft/jdk-7u79-linux-i586.gz hdfs://nameNode:9000/jdk

将文件jdk上传至hdfs。再从HDFS管理界面点击Browse the filesystem将会出现如下界面

 

 

#HDFS下载文件到本地

hadoop fs -get hdfs://nameNode:9000/jdk /home/jdk1.7

6.5.测试MRYARN

/usr/hc/hadoop-2.2.0/share/hadoop/mapreduce目录下

hadoop  jar hadoop-mapreduce-examples-2.2.0.jar 

有提示,运行其中一个例子

hadoop  jar hadoop-mapreduce-examples-2.2.0.jar wordcount

再有提示,



  

提示需要两个参数,分别是输入和输出参数

先用命令hadoop fs -ls hdfs://nameNode:9000/  查看hdfs下面存储的文件

hadoop  jar hadoop-mapreduce-examples-2.2.0.jar wordcount hdfs://nameNode:9000/words hdfs://nameNode:9000/wout

 

7.配置ssh免登陆

生成ssh免登陆秘钥

ssh-keygen  -t  rsa

执行完这个命令后,会生成两个文件id_rsa(私钥)  id_rsa.pub(公钥),再将公钥拷贝到要登陆的机器上。

cat  ~/.ssh/id_rsa.pub >> ~/.ssh/authorized

ssh-copy-id nameNode

 



  

分布式文件存储系统与HDFS

1.常见的分布式文件系统

GFSHDFSLustreCephGridFSmogileFSTFSFastDFS

2.HDFS shell 

2.1 查看帮助

hadoop fs -help

2.2上传

hadoop fs -put <linux上文件> <hdfs上的路径>

2.3查看文件内容

hadoop fs -cat <hdfs上的路径>

2.4查看文件列表

hadoop fs -ls /

2.5下载文件 

hadoop fs -get <hdfs上的路径> <linux上文件路径>

3.HDFS架构

3.1 RPC远程调用,底层走的还是Socket

4.MapReduce

4.1执行步骤

1Map任务 处理

1.1读入输入的文件内容,解析成keyvalue对。对输入文件的每一行,解析成keyvalue对。每一个键值对,调用一次map函数;

1.2 写自己的逻辑,对输入的keyvalue处理,转换成新的keyvalue输出;

1.3对输出的keyvalue进行分区;

1.4对不同分区的数据,按照key进行排序、分组。相同的keyvalue放到一个集合里面。

1.5(可选)分组后的数据进行归约;

2Reduce的原理

2.1对多个map任务的输出,按照不同的分区,通过网络copy到不同的reduce节点;

2.2对多个map任务的输出进行合并、排序。写reduce函数自己的逻辑,对输入的keyvalue处理,转换成新的keyvalue输出;

2.3reduce的输出保存到文件中;

--------------------------------------------待续不断更新-----------------------------------

 

 

 

<!--EndFragment-->
  • 大小: 27.9 KB
  • 大小: 13.1 KB
  • 大小: 52.9 KB
  • 大小: 24.8 KB
  • 大小: 2 KB
  • 大小: 209.4 KB
分享到:
评论

相关推荐

    hadoop1.x环境搭建及其入门

    hadoop1.x环境搭建及其入门,如需获取更多hadoop资源

    初识Hadoop 2.x.pdf

    #### 四、Hadoop 2.x 环境搭建 为了能够有效地使用Hadoop 2.x进行大数据处理,需要搭建一个适合的运行环境。具体步骤包括但不限于: 1. **安装Java**:Hadoop依赖于Java运行,因此首先需要在服务器上安装合适的...

    Hadoop2.x HA环境搭建

    ### Hadoop2.x HA环境搭建知识点详解 #### 一、HA2.0集群搭建与测试 **准备工作:** 1. **停掉之前的服务:** - 在搭建Hadoop2.x HA集群之前,需要确保所有相关的服务都已经停止运行,避免与新搭建的集群产生...

    Hadoop3.x系统文档

    它包括了集群的搭建、安装步骤、配置以及与Hadoop 2.x的不同之处。特别提到的是,对于那些没有Hadoop知识背景的初学者而言,也有零基础部署的详细教程。 #### 2. Hadoop 3.0改变了哪些默认端口? 文档指出,Hadoop ...

    大数据技术之Hadoop3.x-视频教程网盘链接提取码下载 .txt

    Hadoop是大数据技术中最重要的框架之一,是学习大数据...以企业实际生产环境为背景,增加了更全面、更细致、更硬核的生产调优手册,对源码解析部分进行了全新的扩充和升级,并增加大量企业实战案例! 视频大小: 12.9G

    hadoop2.x 安装文档

    在开始Hadoop 2.x集群的搭建之前,需要确保以下条件已经满足: 1. **操作系统环境**: 所有的服务器节点均应安装Linux操作系统。 2. **Java Development Kit (JDK) 安装**: 每个节点都需要安装JDK,推荐版本为1.6.0_...

    hadoop-2.x的环境搭建

    通过以上步骤,你已经成功地搭建起了一个完整的Hadoop 2.x环境,接下来可以进一步探索Hadoop在大数据处理中的强大能力,例如数据导入、查询、分析等。记住,持续监控和优化Hadoop集群的性能至关重要,确保系统的稳定...

    Hadoop2.X集群安装与配置

    以上就是Hadoop 2.x集群的安装与配置过程,这是一个基础的大数据环境搭建,后续可以根据需要添加更多节点,或者集成其他大数据组件,如Hive、Spark等,构建更复杂的数据处理平台。在实际生产环境中,还需要考虑高...

    hadoop2.x集群搭建(1.0).txt

    ### Hadoop 2.x 集群搭建详细指南 #### 一、概述 Hadoop 2.x 是一个基于分布式计算框架的重要版本,它在Hadoop 1.x的基础上进行了大幅度的改进,引入了HDFS High Availability (HA) 和 YARN (Yet Another Resource...

    hadoop2.x集群搭建.txt(hdfs和yarn貌似正常,但mapreduce 提交job执行失败,请看我的另一个资源,另一个搭建是成功的)

    根据提供的文件信息,本文将详细解析Hadoop 2.x集群的搭建步骤以及遇到的问题,特别是针对MapReduce提交Job执行失败的情况进行分析。 ### Hadoop 2.x 集群搭建 #### 一、前期准备 在搭建Hadoop 2.x集群之前,我们...

    hadoop2.x编译实例

    完成环境搭建后,接下来进入 Hadoop 的源码编译阶段。 ##### 2.1 解压缩 Hadoop 源码包 ```bash tar -zxvf hadoop-2.2.0-src.tar.gz ``` ##### 2.2 修改 POM 文件 由于 Hadoop 2.2.0 的源码中缺少对 jetty-util ...

    hadoop.2.7.x.zip

    2. **设置环境变量**: 配置 `HADOOP_HOME` 环境变量指向 Hadoop 的安装目录,并将 `%HADOOP_HOME%\bin` 添加到 `PATH` 变量,确保可以访问 `hadoop` 和 `winutils.exe` 等命令。 3. **配置 Hadoop**: 修改 `hadoop/...

    hadoop2.7.x_winutils_exe&&hadoop_dll

    标题"hadop2.7.x_winutils_exe&&hadoop_dll"暗示我们关注的是Hadoop 2.7.x版本在Windows环境下的两个关键组件:`winutils.exe`和`hadoop.dll`。这些文件对于在Windows上配置和运行Hadoop生态系统至关重要。 首先,...

    各个版本Hadoop,hadoop.dll以及winutils.exe文件下载大合集

    `2.6.5`属于Hadoop 2.x系列,而`3.2.1`是Hadoop 3.x系列的一部分。每个版本都有其特定的改进和特性,选择合适的版本取决于具体项目的需求和兼容性。 `hadoop.dll`是Hadoop在Windows环境下运行的一个关键组件。通常...

    Ubuntu上搭建Hadoop2.x详细文档

    本文档详细介绍了如何在Ubuntu系统上搭建Hadoop2.x环境,包括创建用户、安装Java环境、配置SSH无密码登录、安装Hadoop并配置相关核心文件的过程。通过这些步骤,用户可以顺利地在自己的Ubuntu环境中运行Hadoop集群,...

    Hadoop2.x安装共25页.pdf.zip

    通常,这样的文档会涵盖Hadoop环境配置、集群搭建、分布式文件系统HDFS的设置、MapReduce任务调度以及YARN资源管理等内容。为了给您提供详尽的Hadoop 2.x安装知识,我会基于常规的安装流程来阐述相关知识点。 ...

    hadoop-2.7.x&2.6.x windows可执行文件包

    本文将详细讲解如何在Windows操作系统上搭建和使用Hadoop 2.6.x及2.7.x版本的可执行环境,主要基于提供的压缩包文件:`hadoop2.7.1X64.zip`和`hadoop2.6(x64)V0.2.zip`。 一、Hadoop简介 Hadoop的核心组件包括HDFS...

    hadoop2.7.x运行时所需的winutils.exe和hadoop.dll

    正确配置和使用这两个文件,可以让你在本地Windows机器上搭建和运行Hadoop 2.7.x分布式计算环境,从而进行大数据处理和分析。务必遵循最佳实践,确保所有依赖和配置都完整无误,以便获得稳定可靠的Hadoop服务。

    Hadoop3.1.x_Windows环境整合依赖.rar

    本压缩包“Hadoop3.1.x_Windows环境整合依赖.rar”是为了帮助用户在Windows操作系统上搭建Hadoop 3.1.x环境而准备的,它包含了所有必要的依赖文件和安装包。 首先,我们要了解Hadoop的两个核心组件:HDFS(Hadoop ...

Global site tag (gtag.js) - Google Analytics