http://blog.csdn.net/yfkiss/article/details/7019022
2. aggregate class summary
DoubleValueSum |
This class implements a value aggregator that sums up a sequence of double values. |
LongValueMax |
This class implements a value aggregator that maintain the maximum of a sequence of long values. |
LongValueMin |
This class implements a value aggregator that maintain the minimum of a sequence of long values. |
LongValueSum |
This class implements a value aggregator that sums up a sequence of long values. |
StringValueMax |
This class implements a value aggregator that maintain the biggest of a sequence of strings. |
StringValueMin |
This class implements a value aggregator that maintain the smallest of a sequence of strings. |
UniqValueCount |
This class implements a value aggregator that dedupes a sequence of objects. |
UserDefinedValueAggregatorDescriptor |
This class implements a wrapper for a user defined value aggregator descriptor. |
ValueAggregatorBaseDescriptor |
This class implements the common functionalities of the subclasses of ValueAggregatorDescriptor class. |
ValueAggregatorCombiner<K1 extends WritableComparable,V1 extends Writable> |
This class implements the generic combiner of Aggregate. |
ValueAggregatorJob |
This is the main class for creating a map/reduce job using Aggregate framework. |
ValueAggregatorJobBase<K1 extends WritableComparable,V1 extends Writable> |
This abstract class implements some common functionalities of the the generic mapper, reducer and combiner classes of Aggregate. |
ValueAggregatorMapper<K1 extends WritableComparable,V1 extends Writable> |
This class implements the generic mapper of Aggregate. |
ValueAggregatorReducer<K1 extends WritableComparable,V1 extends Writable> |
This class implements the generic reducer of Aggregate. |
ValueHistogram |
This class implements a value aggregator that computes the histogram of a sequence of strings |
3. streaming中使用aggregate
在mapper任务的输出中添加控制,如下:
function:key\tvalue
eg:
LongValueSum:key\tvalue
此外,置-reducer = aggregate。此时,Reducer使用aggregate中对应的function类对相同key的value进行操作,例如,设置function为LongValueSum则将对每个键值对应的value求和。
分享到:
相关推荐
Hadoop硬实战:Hadoop in Practice
Hadoop 技术内幕:深入解析Hadoop Common 和HDFS 架构设计与实现原理
### Hadoop Streaming中文官方文档解析 #### Hadoop Streaming概述 Hadoop Streaming是Hadoop生态系统中的一个组件,它允许用户使用自定义的编程语言(如Python、Perl或Ruby)编写MapReduce程序,而不仅仅是Java。...
Hadoop实战:Hadoop in Action
Hadoop技术内幕:深入解析Hadoop Common 和HDFS 架构设计与实现原理 (大数据技术丛书) 原版书籍,非扫描版,使用kindle可以打开,也可以转换为epub使用ibooks打开
标题 "hadoop-streaming-2.8.0_jar_2.8.0_hadoop_streaming_" 暗示我们正在讨论的是 Hadoop Streaming 的一个版本,具体是2.8.0。Hadoop Streaming 是一个 Hadoop 组件,允许用户使用可执行的脚本(如 Python 或 ...
在分布式计算领域,Hadoop Streaming 是一个至关重要的工具,它使得开发者可以利用任何可执行文件或脚本(如 Java、Python、Shell 等)来编写 MapReduce 作业,而无需直接使用 Java API。Hadoop Streaming 的核心...
《Hadoop硬实战》收集了85个问题场景以及解决方案的实战演练。在关键问题领域对基础概念和实战方法做了权衡,例如导入导出、序列化,以及LZO压缩。你将会学习到每个技术的细节,以及当遇到一个具体问题时能够给出...
Hadoop Streaming是一个强大的工具,它允许用户使用任何可执行文件(如Python脚本、Perl或Bash shell命令)作为MapReduce任务的Mapper和Reducer。这个技术使得非Java开发者也能利用Hadoop的大数据处理能力。在本文中...
《Hadoop技术内幕:深入解析Hadoop Common和HDFS架构设计与实现原理》还从源代码实现中对分布式技术的精髓、分布式系统设计的优秀思想和方法,以及Java语言的编码技巧、编程规范和对设计模式的精妙运用进行了总结和...
《Hadoop技术内幕:深入解析Hadoop Common和HDFS架构设计与实现原理》由腾讯数据平台的资深Hadoop专家、X-RIME的作者亲自执笔,对Common和HDFS的源代码进行了分析,旨在为Hadoop的优化、定制和扩展提供原理性的指导。...
Hadoop技术内幕:深入解析MapReduce架构设计i与实现原理Hadoop技术内幕:深入解析MapReduce架构设计i与实现原理Hadoop技术内幕:深入解析MapReduce架构设计i与实现原理Hadoop技术内幕:深入解析MapReduce架构设计i与...
Hadoop Streaming是一个非常有用的工具,它能够使得任何用编程语言实现的程序能够在Hadoop MapReduce框架中运行。Hadoop Streaming利用标准输入和标准输出来实现程序与MapReduce框架之间的通信。这个特性使得已经...
$ hadoop jar hadoop-streaming.jar -aggregate -mapper mymapper -reducer myreducer -input input -output output ``` #### Hadoop 字段选择类 字段选择类允许从输入记录中选择特定字段。这可以通过 `-selector`...
php-hadoopstreaming ... hadoop-standalone/bin/hadoop jar hadoop-standalone/hadoop-streaming.jar\ -input examples/wordcount/word.txt\ -output examples/wordcount/output\ -mapper 'php examples/wordco
数据架构师第006节实战.基于hadoop streaming的wordcount .mp4
Hadoop技术内幕:深入解析YARN架构设计与实现原理(扫描版)Hadoop技术内幕:深入解析YARN架构设计与实现原理(扫描版)Hadoop技术内幕:深入解析YARN架构设计与实现原理(扫描版)
Hadoop技术内幕:深入解析MapReduce架构设计与实现原理(扫描版)Hadoop技术内幕:深入解析MapReduce架构设计与实现原理(扫描版)Hadoop技术内幕:深入解析MapReduce架构设计与实现原理(扫描版)
hadoop&spark:Hive是一个基于Hadoop的数据仓库平台.zip
5. 实战案例分析:在学习Hadoop的过程中,参考和分析不同的实战案例能够帮助学习者更好地理解Hadoop的工作机制。案例分析可以让初学者了解在大数据处理中遇到的问题和解决方案,也能够加深对Hadoop各类组件使用场景...