MapReduce - - ITeye博客

`

wanglei2999

浏览: 22352 次
性别:
来自: 北京

最近访客更多访客>>

phaple

小川ccc

蛋蛋君君

2868466192

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

社区版块

存档分类

最新评论

xuanzewo505：搞定了吗？我今天也遇到了这个问题。会不会是win7 64的原因 ...
nutch1.5 运行问题求解

MapReduce

博客分类：

大数据
MapReduce

阅读更多

如何理解map-reduce是干嘛的。。。。。摘自百度百科

如果想统计下过去10年计算机论文出现最多的几个单词，看看大家都在研究些什么，那收集好论文后，该怎么办呢？

方法一：我可以写一个小程序，把所有论文按顺序遍历一遍，统计每一个遇到的单词的出现次数，最后就可以知道哪几个单词最热门了。

这种方法在数据集比较小时，是非常有效的，而且实现最简单，用来解决这个问题很合适。

方法二：写一个多线程程序，并发遍历论文。
这个问题理论上是可以高度并发的，因为统计一个文件时不会影响统计另一个文件。当我们的机器是多核或者多处理器，方法二肯定比方法一高效。但是写一个多线程程序要比方法一困难多了，我们必须自己同步共享数据，比如要防止两个线程重复统计文件。

方法三：把作业交给多个计算机去完成。
我们可以使用方法一的程序，部署到N台机器上去，然后把论文集分成N份，一台机器跑一个作业。这个方法跑得足够快，但是部署起来很麻烦，我们要人工把程序copy到别的机器，要人工把论文集分开，最痛苦的是还要把N个运行结果进行整合（当然我们也可以再写一个程序）

方法四：让MapReduce来帮帮我们吧！
MapReduce本质上就是方法三，但是如何拆分文件集，如何copy程序，如何整合结果这些都是框架定义好的。我们只要定义好这个任务（用户程序），其它都交给MapReduce。

分享到：

ssh无密码登录

2013-06-06 14:57
浏览 603
评论(0)
分类:开源软件
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

基于MapReduce实现决策树算法: 基于MapReduce实现决策树算法的知识点基于MapReduce实现决策树算法是一种使用MapReduce框架来实现决策树算法的方法。在这个方法中，主要使用Mapper和Reducer来实现决策树算法的计算。下面是基于MapReduce实现决策...

实验项目 MapReduce 编程: 实验项目“MapReduce 编程”旨在让学生深入理解并熟练运用MapReduce编程模型，这是大数据处理领域中的核心技术之一。实验内容涵盖了从启动全分布模式的Hadoop集群到编写、运行和分析MapReduce应用程序的全过程。 ...

学生mapreduce成绩分析: MapReduce是一种分布式计算模型，由Google在2004年提出，主要用于处理和生成大规模数据集。这个模型将复杂的计算任务分解成两个主要阶段：Map（映射）和Reduce（化简），使得在大规模分布式环境下处理大数据变得可能...

Hadoop mapreduce实现wordcount: 【标题】Hadoop MapReduce 实现 WordCount MapReduce 是 Apache Hadoop 的核心组件之一，它为大数据处理提供了一个分布式计算框架。WordCount 是 MapReduce 框架中经典的入门示例，它统计文本文件中每个单词出现的...

【MapReduce篇07】MapReduce之数据清洗ETL1: MapReduce之数据清洗ETL详解 MapReduce是一种基于Hadoop的分布式计算框架，广泛应用于大数据处理领域。数据清洗（Data Cleaning）是数据处理过程中非常重要的一步，旨在清洁和转换原始数据，使其更加可靠和有用。...

MapReduce实例分析：单词计数: 单词计数是最简单也是最能体现 MapReduce 思想的程序之一，可以称为 MapReduce 版“Hello World”。单词计数的主要功能是统计一系列文本文件中每个单词出现的次数。本节通过单词计数实例来阐述采用 MapReduce 解决...

大数据实验四-MapReduce编程实践: ### 大数据实验四-MapReduce编程实践 #### 一、实验内容与目的 ##### 实验内容概述本次实验的主要内容是使用MapReduce框架来实现WordCount词频统计功能，即统计HDFS（Hadoop Distributed File System）系统中多个...

MapReduce 谷歌实验室论文: MapReduce是一种由谷歌实验室提出的大规模数据处理模型及其相关实现方案。这篇论文详细介绍了MapReduce的概念、工作机制以及在实际中的应用。MapReduce模型通过两个主要函数——Map函数和Reduce函数来处理数据，使得...

基于MapReduce的Apriori算法代码: 基于MapReduce的Apriori算法代码基于MapReduce的Apriori算法代码是一个使用Hadoop MapReduce框架实现的关联规则挖掘算法，称为Apriori算法。Apriori算法是一种经典的关联规则挖掘算法，用于发现事务数据库中频繁...

大数据 hadoop mapreduce 词频统计: 【大数据Hadoop MapReduce词频统计】大数据处理是现代信息技术领域的一个重要概念，它涉及到海量数据的存储、管理和分析。Hadoop是Apache软件基金会开发的一个开源框架，专门用于处理和存储大规模数据集。Hadoop的...

mapreduce项目数据清洗: MapReduce是一种分布式计算模型，由Google在2004年提出，主要用于处理和生成大规模数据集。它将复杂的并行计算任务分解成两个主要阶段：Map（映射）和Reduce（化简）。在这个"MapReduce项目数据清洗"中，我们将探讨...

Hadoop原理与技术MapReduce实验: （2）打开网站localhost:8088和localhost:50070，查看MapReduce任务启动情况（3）写wordcount代码并把代码生成jar包（4）运行命令（1）：把linus下的文件放到hdfs上（2）：运行MapReduce （5）：查看运行结果 ...

Hadoop之MapReduce编程实例完整源码: 一个自己写的Hadoop MapReduce实例源码，网上看到不少网友在学习MapReduce编程，但是除了wordcount范例外实例比较少，故上传自己的一个。包含完整实例源码，编译配置文件，测试数据，可执行jar文件，执行脚本及操作...

基于MapReduce的电信数据清洗系统设计与实现: 内容概要：本文详细介绍了如何使用MapReduce框架设计和实现一个电信数据清洗系统，涵盖数据预处理、无效数据过滤、重复数据检测与删除以及数据格式转换等关键技术步骤。通过具体的代码示例，解释了各阶段的实现细节...

基于MapReduce的交互可视化平台: 基于MapReduce的交互可视化平台是一个涉及大数据处理和图形界面展示的IT解决方案，旨在通过可视化的方式增强用户对大数据分析结果的理解。文章详细探讨了如何使用MapReduce这一大数据处理模型，结合GPU加速技术，MPI...

MapReduce求行平均值--MapReduce案例: 在大数据处理领域，MapReduce是一种广泛使用的分布式计算框架，由Google提出并被Hadoop采纳为标准组件。本案例主要探讨如何使用MapReduce来求取数据集的行平均值，这在数据分析、数据挖掘以及日志分析等场景中非常...

MapReduce基础.pdf: ### MapReduce基础知识详解 #### 一、MapReduce概述 **MapReduce** 是一种编程模型，最初由Google提出并在Hadoop中实现，用于处理大规模数据集的分布式计算问题。该模型的核心思想是将复杂的大型计算任务分解成较...

论文：MapReduce: Simplified Data Processing on Large Clusters: ### MapReduce: 简化的大型集群数据处理 #### 一、引言《MapReduce: Simplified Data Processing on Large Clusters》这篇论文由Google的研究员Jeffrey Dean和Sanjay Ghemawat撰写，旨在介绍一种名为MapReduce的...

大数据实验5实验报告：MapReduce 初级编程实践: 【MapReduce初级编程实践】是大数据处理中的一项基础任务，主要应用于大规模数据集的并行计算。在这个实验中，我们关注的是如何利用MapReduce来实现文件的合并与去重操作。MapReduce是一种分布式计算模型，由Google...

hadoop-mapreduce-client-jobclient-2.6.5-API文档-中文版.zip: 赠送jar包：hadoop-mapreduce-client-jobclient-2.6.5.jar；赠送原API文档：hadoop-mapreduce-client-jobclient-2.6.5-javadoc.jar；赠送源代码：hadoop-mapreduce-client-jobclient-2.6.5-sources.jar；赠送...

Global site tag (gtag.js) - Google Analytics