- 浏览: 5826 次
- 性别:
最新评论
文章列表
常用输入格式
输入格式
特点
使用的RecordReader
是否使用FileInputFormat的getSplits
TextInputFormat
以行偏移量为key,以换行符前的字符为Value
LineRecordReader
是
修改map配置文件 mapred-site.xml
[root@bigdata yar]# vim /opt/hadoop-2.8.3/etc/hadoop/mapred-site.xml
<property>
<name>mapreduce.jobhistory.address </name>
<value>bigdata.cqmfin.com:10020</value>
</property>
<property>
<name>mapreduce.jobh ...
气象数据集
关于MapReduce MapReduce是一种可用于数据处理的编程模型,它本质上是并行运行的,因此可以将大规模的数据分析任务分发给任何一个拥有足够多机器的数据中心。MapReduce的优势在于处理大规模数据集,这里我们先看一个数据集。我们今天的目的是:在大批量的气象数据中,获取每年每月的最高气温。
数据格式 我们使用的数据来自于权威指南提供的美国国家气候数据中心,该数据按行为单位,每一行包含日期、气温、地点等等信息。比如下列数据为:1901年12月29日到31日的数据,相信细心的你会找到日期的,而温度是每一行的第87到92个字符(包含正负号)。
...