`

大数据学习笔记12:理解MapReduce

 
阅读更多

理解MapReduce

 

1、MapReduce  时两个过程

      map:匹配 或者 叫映射

     reduce : 汇总

 

2、MapReduce 体现了分而治之的思想

 

3、MapReduce 是移动计算  而非移动数据

 

4、统计单词出现个数的例子

     一本书1000页。---假定单页印刷

    我们找来 1010人,其中一千人 一人一页来分别统计本页的单词出现情况。

    另外10人 来汇总 那1000人的 统计结果。

   其中的 1000人做的 就是 Map ,把大任务划分成多个小块,分别计算。

   另外10执行的就是 reduce,汇总计算。-- reduce 英文本意就是 减少 、缩小的 意思。

 

5、数钱的例子

     桌子上一大堆钱,有面值 100、50 、10 块的。

     map:桌子做一圈 10个人 ,每人分一堆钱,整理钱--把100的放一摞、50一摞、10块一摞

     reduce:最后三个人 收汇总的钱 ,一个人管100的  一个人管50的 一个管10块的。

                    三个人分别计算自己钱数,最后就得到总钱数。

 

 

 

6、MapReduce 处理的目标:海量数据

 

 

7、 MapReduce 是一个分布式 计算框架。

 

 

8、MapReduce 框架 解决了那些问题:

     

     8.1   数据分布式存储---使用HDFS

     8.2   作业调度

     8.3   容错处理

     8.4    机器见通讯的复杂处理

 

 

 

分享到:
评论

相关推荐

    大数据学习笔记.zip

    大数据学习笔记.zip是一个压缩包,其中包含了关于大数据技术的学习资料,特别是聚焦于Hadoop、HBase、Kafka和Flume这四个重要组件。这些技术都是大数据处理和分析领域中的核心工具,广泛应用于海量数据的存储、实时...

    大数据学习笔记,学习路线,技术案例整理。.zip

    本资料包“大数据学习笔记,学习路线,技术案例整理”是一个全面的大数据学习资源,旨在帮助初学者和进阶者系统地掌握大数据的核心技术和应用实践。 首先,我们来了解一下大数据的关键概念和技术栈。大数据通常有四...

    尚硅谷大数据技术之Hadoop(MapReduce)1

    【尚硅谷大数据技术之Hadoop(MapReduce)1】深入解析MapReduce MapReduce是Google提出的一种用于处理和生成大规模数据集的编程模型,被广泛应用于大数据处理领域。Hadoop将其作为核心组件,实现了分布式计算的功能...

    大数据学习笔记文档.rar

    《大数据学习笔记文档》 大数据领域是信息技术的热门方向,涵盖了多个关键技术,如Linux、Kafka、Python、Hadoop和Scala等。以下是对这些技术的详细介绍: **Linux**:作为大数据处理的基础平台,Linux因其开源、...

    大数据学习笔记汇总指南

    这份“大数据学习笔记汇总指南”涵盖了大数据技术栈中的关键组件,包括Hadoop、Hive、Spark、Storm、Flink以及HBase。让我们逐一深入探讨这些技术及其在大数据生态系统中的作用。 一、Hadoop Hadoop是Apache基金会...

    本仓库包含Java学习笔记和大数据学习笔记,主要包含Java基础、JavaWEB、Java框架、大数据主要框架。主.zip

    4. **大数据框架**: 面向大数据处理,Hadoop是基石,其主要组件包括HDFS(分布式文件系统)和MapReduce(并行计算模型)。Spark框架以其高效内存计算和丰富的生态系统受到欢迎,它支持批处理、实时流处理和机器学习...

    大数据创建相关笔记,能够很好的了解和学习大数据相关知识

    这份“大数据创建相关笔记”无疑是你深入理解和掌握大数据概念、技术和应用的宝贵资源。 笔记可能涵盖以下几个关键部分: 1. **大数据定义与特征**:大数据不仅仅是数据量大,它还包含了数据的多样性(Variety)、...

    大数据技术原理学习笔记.docx

    大数据技术原理的学习是理解现代信息技术的关键部分,它涵盖了数据的收集、存储、处理和分析等多个环节。本笔记基于林子雨老师在MOOC上的《大数据技术原理》课程,旨在为IT从业者和大学生提供一个全面了解大数据的...

    大数据技术学习笔记1

    大数据技术学习笔记1涵盖了大数据技术的基本概念、Hadoop 生态系统、MapReduce 算法、Spark 框架、分布式计算平台、NoSQL 数据库、数据处理、数据挖掘等多个方面,能够帮助读者更好地理解大数据技术的基本概念和应用...

    henrrywan.github.io:大数据学习笔记

    标题 "henrrywan.github.io:大数据学习笔记" 暗示这可能是一个关于大数据学习的个人博客或项目,发布在GitHub平台上。描述中的链接指向了GitHub和Gitee(中国的GitHub镜像)上的个人页面,表明作者Henry Wan分享了他...

    大数据面试录音02.zip

    这份名为"大数据面试录音02.zip"的压缩包文件提供了一次完整的面试对话记录,它包含一个名为"大数据面试录音02.m4a"的音频文件,这可能是面试者与面试官之间的实际交谈,对于学习和理解面试技巧以及大数据领域的专业...

    大数据学习文档.docx

    【大数据学习文档】这篇文档是关于大数据学习的笔记,主要关注了Hadoop和Storm这两个重要的分布式计算框架。本文将详细解析Hadoop集群的安装、配置和启动过程。 首先,我们来了解一下Hadoop。Hadoop是一个开源的...

    大数据学习资料.zip

    在这个“大数据学习资料.zip”压缩包中,我们可以找到一系列与大数据相关的学习资源,特别适合初学者快速入门。 首先,让我们关注“大数据”这一概念。大数据不仅仅是数据量的增加,更关键的是数据的多样性、高速...

    hadoop学习笔记.rar

    五、Hadoop学习笔记之四:运行MapReduce作业做集成测试 集成测试是在整个系统或部分系统组合后进行的测试,对于Hadoop项目,这通常意味着在真实或模拟的Hadoop集群上运行MapReduce作业。通过集成测试,可以验证应用...

    HCIA-Big Data考试题库.zip

    在准备HCIA-Big Data考试时,考生需要对以上知识点有深入理解和实践操作能力,通过题库进行模拟练习,可以提升对大数据技术的理解和应试技巧。同时,了解华为认证的相关政策、考试格式和评分标准也是至关重要的。

    传智博客大数据三阶段笔记

    通过这份笔记,学习者将能够全面理解实时大数据处理的概念、技术和实践,从而在大数据领域具备更全面的能力,应对不断增长的实时数据分析需求。无论是对大数据初学者还是经验丰富的专业人士,都是一份宝贵的参考资料...

    大数据hive笔记.zip

    《Hive大数据处理详解》 在当今的数据洪流中,Hive作为一种强大的大...理解并熟练掌握Hive,对于大数据领域的从业者至关重要。通过深入学习Hive的原理和实践,我们可以更高效地挖掘数据价值,为企业决策提供有力支持。

    大数据技术学习笔记之Hive.zip

    这份“大数据技术学习笔记之Hive”旨在帮助我们深入理解并掌握Hive的核心概念和技术应用。 一、Hive概述 Hive主要为非结构化或半结构化的海量数据提供数据仓库服务,通过SQL-like查询语言(HQL)进行数据查询,简化...

    大数据服务框架学习笔记.zip

    "大数据服务框架学习笔记.zip"很可能是包含一系列关于大数据服务框架的学习资料,如Hadoop、Spark、Flink等主流框架的讲解。下面,我们将深入探讨这些关键组件和框架。 首先,Hadoop是大数据处理的基础框架,由...

    大数据学习资料全排序二次排序

    "大数据学习资料全排序二次排序"这个主题,显然关注的是如何有效地对大规模数据进行排序,尤其是涉及到二次排序的概念。二次排序通常是指在第一次排序的基础上,根据另一个或多个字段进行第二次排序,以满足更复杂的...

Global site tag (gtag.js) - Google Analytics