- 浏览: 923 次
- 性别:
- 来自: 北京
最新评论
文章列表
MapReduce执行流程
- 博客分类:
- 大数据
MapReduce执行流程
一. MapReduce工作原理
MapReduce执行,会在Mapper任务运行时读取HDFS中的数据文件,然后调用map方法处理数据,输出。
Reducer任务接收Mapper任务输出的数据,作为自己的输入数据调用reduce方法,最后输出到HDFS文件中
(1)Mapper任务详解
每个Mapper任务是一个独立java进程,读取HDFS中的文件,解析成键值对,经过map方法转换成多个键值对输出
第一阶段是把输入文件按照一定的标准分片(InputSplit),每个输入片的大小是固定的。默认情况下,输入片(InputSplit ...
应用MapReduce(1)
- 博客分类:
- 大数据
应用MapReduce(1)
编写一个数据去重的MapReduce应用
一、准备数据
文件1
200001-3-1 a200001-3-2 b200001-3-3 c200001-3-4 d200001-3-5 a200001-3-6 b200001-3-7 c200001-3-3 c
文件2
200002-3-1 a200002-3-2 b200002-3-3 c200001-3-4 d200001-3-5 a200002-3-6 b200002-3-7 c
单机部署hadoop
- 博客分类:
- 大数据
单机部署Hadoop
一、系统及版本:CentOS release 6.8 (Final)
hadoop-2.8.1
JDK1.7(安装并配置环境变量)
安装前提:ssh安装
单机模式:运行在一个单独机器上的独立Java进程,适用于开发或调试环境
二、添加用户以及用户组(尽量不适用root用户)
$ sudo adduser hadoop ##创建用户hadoop
$ s ...