没有Map和Reduce的Mapreduce（LazyMapReduce） - Oak_Sun - ITeye博客

`

sunasheng

浏览: 125723 次
性别:
来自: 北京

最近访客更多访客>>

czl026

爱吃甜甜甜的sweet

foxinmy

infoflow

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

全部博客 (97)

社区版块

存档分类

最新评论

没有Map和Reduce的Mapreduce（LazyMapReduce）

hadoop Mapreduce LazyMapReduce

阅读更多

package mapredue.wordcount;

import java.io.IOException;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;
import org.apache.hadoop.util.GenericOptionsParser;

public class LazyMapReduce {
	public static void main(String args[]) throws IOException,
			InterruptedException, ClassNotFoundException {
		Configuration conf = new Configuration();
		String[] otherArgs = new GenericOptionsParser(conf, args)
				.getRemainingArgs();
		if (otherArgs.length != 2) {
			System.exit(2);
		}
		Job job = new Job(conf, "LazyMapReduce");
		FileInputFormat.addInputPath(job, new Path(args[0]));
		FileOutputFormat.setOutputPath(job, new Path(args[1]));
		System.exit(job.waitForCompletion(true) ? 0 : 1);
	}
}
// 没有map/reduce的MapReduce
// 这样也是正常执行的

分享到：

mapreduce中用户自定义数据类型 | HBase的安装

2013-09-22 09:28
浏览 973
评论(0)
分类:互联网
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

【MapReduce篇06】MapReduce之MapJoin和ReduceJoin1: MapReduce之MapJoin和ReduceJoin MapReduce是一种分布式计算模型，广泛应用于大数据处理和分析领域。其中，Join操作是 MapReduce 中的一种基本操作，用于连接来自不同数据源的数据。今天，我们将讲解 MapReduce 之 ...

Map-Reduce原理体系架构和工作机制，eclipse与Hadoop集群连接: ### Map-Reduce原理体系架构和工作机制 #### 一、Map-Reduce原理概述 Map-Reduce是一种编程模型，用于处理大规模数据集（通常是TB级或更大），该模型可以在大量计算机（称为集群）上进行并行处理。Map-Reduce的...

使用Map-Reduce对大规模图进行排名和半监督分类: 标题中的“使用Map-Reduce对大规模图进行排名和半监督分类”是指利用MapReduce编程模型处理大规模图数据，实现图的排序（如PageRank）和半监督学习中的分类任务。MapReduce是由Google提出的一种分布式计算框架，适用...

Map/Reduce：大规模集群上的简化数据处理: 总结起来，MapReduce 是一种简化大数据处理的编程模型，它通过将复杂问题分解为 Map 和 Reduce 两个阶段，使得开发者能够更轻松地处理大规模分布式计算任务，而无需深入理解底层的并行和分布式系统实现。这种模型...

Mapreduce中文版: MapReduce的抽象模型通过隐藏并行计算、容错、数据分布和负载均衡等复杂细节，允许程序员只需要关注具体的Map和Reduce函数的实现，从而利用分布式系统资源进行高效计算。 Google在过去的5年内已经实现了数百个...

a java map reduce framework: Hadoop的MapReduce实现位于`org.apache.hadoop.mapreduce`包下，其中`Mapper`和`Reducer`类是核心接口，分别对应Map和Reduce阶段。开发者需要实现这些接口来定义自己的业务逻辑。六、工具支持 Hadoop提供了丰富的...

MapReduce综合案例（4个）: 它将复杂的并行计算任务分解为两个主要阶段：Map（映射）和Reduce（化简）。在这个综合案例中，我们将探讨四个具体的应用场景，分别是社交网络综合评分案例、微博精准营销案例、物品推荐案例以及QQ好友推荐案例。 1...

大数据技术基础实验报告-MapReduce编程.doc: 在Eclipse中创建MapReduce项目时，选择`File -> New -> Project…`，然后选择`Map/Reduce Project`。为项目命名（例如，`WordCount`），完成后，项目将在Project Explorer中显示。在新项目中创建类，如`WordCount`...

Hadoop MapReduce实战手册(完整版): MapReduce的核心理念是将复杂的分布式计算任务分解为两个主要阶段：Map（映射）和Reduce（规约）。在Map阶段，原始数据被分割成多个小块，并在集群的不同节点上并行处理。每个Map任务处理一个数据块，将其转化为中间...

Map reduce的执行原理: 它的执行原理可以分为两个阶段：Map 和 Reduce。 Map 阶段的执行流程： 1. 读取 HDFS 中的文件，每一行解析成一个,v>。每一个键值对调用一次 map 函数。 2. 覆盖 map()，接收 Map 任务处理的,v>，进行处理，转换为...

基于Map_Reduce的分布式搜索引擎研究: 在对Map/Reduce算法进行分析的基础上,利用开源Hadoop软件设计出高容错高性能的分布式搜索引擎,以面对搜索引擎对海量数据的处理和存储问题

基于Java实现的简易MapReduce框架.zip: 在具体实现中，MapReduce框架会读取HDFS（Hadoop Distributed File System）上的输入文件，通过Map任务将数据进行拆分和转换，然后通过Shuffle过程进行数据的传输和排序，最后由Reduce任务完成数据的聚合。...

配置mapreduce开发环境（简单易懂，轻松上手）: 本文详细介绍了如何配置MapReduce开发环境的过程，包括搭建基础环境、配置网络、安装和配置MyEclipse插件、编写和运行MapReduce程序等内容。遵循本文步骤，即使是初学者也能轻松地配置出一个完整的MapReduce开发环境...

在solr文献检索中用map/reduce: MapReduce是一种编程模型，用于处理和生成大型数据集，它将复杂计算分解为两个主要阶段：map和reduce，适合在分布式环境下运行。描述简短，但暗示了Solr如何利用MapReduce来扩展其在海量数据上的检索能力。在大型...

hadoop中map/reduce: MapReduce的设计理念源于Google的同名论文，它通过将大规模数据处理任务分解为两个阶段：Map（映射）和Reduce（化简），使得海量数据能够在多台计算机上并行处理，极大地提高了数据处理效率。 Map阶段是数据处理的...

MapReduce详解Shuffle过程: Shuffle过程可以分为两部分：map端和reduce端。在map端，map task将输出结果存储在内存缓冲区中，当缓冲区快满的时候将缓冲区的数据以一个临时文件的方式存放到磁盘，然后对磁盘中这个map task产生的所有临时文件做...

map-reduce实现分布式爬虫: **MapReduce** 是Google提出的一种用于大规模数据处理的计算模型，它将复杂的数据处理任务拆分为两个阶段：Map（映射）和Reduce（规约）。Map阶段将原始数据切分成多个小块，分别进行处理，而Reduce阶段则负责汇总...

基于Map/Reduce的分布式搜索引擎研究: 本文将基于Map/Reduce算法，探讨如何利用开源框架Hadoop来设计和实现一种高容错、高性能的分布式搜索引擎。 #### 2. Map/Reduce算法 ##### 2.1 Map/Reduce算法概述 Map/Reduce是一种用于处理大规模数据集的编程...

mapreduce原理: 5. Partitioner 也是选择配置，主要作用是在多个 Reduce 的情况下，指定 Map 的结果由某一个 Reduce 处理，每一个 Reduce 都会有单独的输出文件。 6. Reduce 执行具体的业务逻辑，即用户编写的处理数据得到结果的...

mapreduce_reduce_mapReduce_settingn2p_: MapReduce是一种编程模型，用于大规模数据集（大于1TB）的并行运算。概念"Map（映射）"和"Reduce（归约）"，是它们的主要思想，都是从函数式编程语言里借来的，还有从矢量编程语言里借来的特性...

Global site tag (gtag.js) - Google Analytics