`

大数据学习笔记16:MapReduce处理流程四

 
阅读更多

MapReduce处理流程四

 

 


 

 

 

   1、上面 黑色实框 圈起来的 整体上 是   inputformat

 

   2、inputformat 两个功能: 切分数据、读取数据 

 

   3、一个split 对应一个 map 处理

 

   4、分区、排序 都属于  shuffle 

 

   5、数据存储交换都在 HDFS上

 

   6、一个map 是一个进程 : 但是spark 使用的是 线程,进程比线程更容易控制资源使用  比较稳定。

         但是 进程启动较慢。

 

   7、RR--记录读取器   每读取一条记录  调用一次  map 函数,知道split尾部。

 

   8、缓冲区的数据 是    { 分区 ,key,value} 的三元组 。

 

   9、不是所有的文件都要经过切分 : 压缩问价不能切分 。

 

   10、一个压缩文件由 一个 map 来处理---- 可以通过控制压缩文件个数  来控制 map 个数。

 

   11、hdfs   Block默认大小是64m  - 可以通过参数 dfs.block.size  设置  。 由此可见  hdfs 适合存储大文件。

 

 

  • 大小: 492.2 KB
分享到:
评论

相关推荐

    大数据学习笔记

    大数据学习笔记 本资源摘要信息涵盖了大数据领域中的多个方面,包括Hadoop、HBase、Sqoop、Spark和Hive等技术栈。下面将对这些技术栈进行详细的解释和分析。 一、HDFS架构详尽分析 HDFS(Hadoop Distributed File...

    大数据学习笔记.docx

    本笔记将深入探讨大数据的基本概念,包括Hadoop、Hive、离线计算、实时计算、数据库、数据仓库、维度建模以及大规模并行处理MPP,还将介绍阿里云的一些大数据产品,如MaxCompute、DataWorks、数据集成、机器学习PAI...

    大数据学习笔记汇总指南

    这份“大数据学习笔记汇总指南”涵盖了大数据技术栈中的关键组件,包括Hadoop、Hive、Spark、Storm、Flink以及HBase。让我们逐一深入探讨这些技术及其在大数据生态系统中的作用。 一、Hadoop Hadoop是Apache基金会...

    大数据学习笔记,学习路线,技术案例整理。.zip

    本资料包“大数据学习笔记,学习路线,技术案例整理”是一个全面的大数据学习资源,旨在帮助初学者和进阶者系统地掌握大数据的核心技术和应用实践。 首先,我们来了解一下大数据的关键概念和技术栈。大数据通常有四...

    大数据学习笔记.pdf

    第4章 Spark CORE编程 ....................................................................................................... 13 4.1 Spark Shell ...........................................................

    大数据面试录音02.zip

    这份名为"大数据面试录音02.zip"的压缩包文件提供了一次完整的面试对话记录,它包含一个名为"大数据面试录音02.m4a"的音频文件,这可能是面试者与面试官之间的实际交谈,对于学习和理解面试技巧以及大数据领域的专业...

    HCIA-Big Data考试题库.zip

    10. **大数据项目实施**:涵盖数据采集、清洗、转换、加载(ETL过程)、数据分析和可视化整个流程。 在准备HCIA-Big Data考试时,考生需要对以上知识点有深入理解和实践操作能力,通过题库进行模拟练习,可以提升对...

    hadoop学习笔记.rar

    四、hadoop学习笔记之二:MapReduce基本编程 MapReduce编程模型包括Map阶段和Reduce阶段。Map阶段将输入数据分解为键值对,然后分发到各个节点处理;Reduce阶段则负责聚合Map阶段的结果,生成最终输出。开发者需要...

    Java大数据课程核心笔记

    Hadoop提供了分布式文件系统HDFS和MapReduce计算模型,而Spark则以更快的速度处理数据,并支持更复杂的计算任务,如机器学习和图形处理。虽然这些框架的具体使用不在Java基础笔记的范畴内,但了解它们与Java的交互...

    大数据学习资料全排序二次排序

    "大数据学习资料全排序二次排序"这个主题,显然关注的是如何有效地对大规模数据进行排序,尤其是涉及到二次排序的概念。二次排序通常是指在第一次排序的基础上,根据另一个或多个字段进行第二次排序,以满足更复杂的...

    大数据博客、笔试题、教程、项目、面经的整理.zip

    这个压缩文件可能是一个全面的大数据学习和求职准备资源集合。 在大数据领域,有以下几个关键知识点: 1. **大数据概念**:大数据是指数据量巨大、增长快速、类型多样、价值密度低的数据集合。它通常涉及到四个V,...

    大数据平台,hadoop集群学习笔记

    通过深入学习Hadoop集群,不仅可以理解大数据处理的基本原理,还能掌握实际操作技巧,为在大数据时代解决复杂问题奠定坚实基础。随着云计算和物联网的发展,Hadoop及其相关技术将继续在大数据处理领域扮演关键角色。...

    大数据课程课件PDF...

    五、大数据学习笔记 学习大数据,你需要掌握编程语言如Java或Python,理解分布式计算原理,熟悉Hadoop和Spark等工具,以及数据分析和机器学习的基础知识。同时,实战项目经验也是提升技能的关键,可以参与开源项目...

    大数据基础

    4. 处理框架:深入学习MapReduce编程模型,以及更现代的Spark框架,探讨它们在并行计算和实时数据分析中的优势。 5. 数据分析:介绍数据挖掘、机器学习和深度学习的基本原理和算法,如分类、聚类、回归、神经网络等...

    大数据笔记、hadoop、hive、flink等

    在学习过程中,"大数据笔记"可能包含了这些技术的理论介绍、安装配置教程、实战案例以及常见问题解答等内容。通过阅读和实践,可以加深对大数据处理流程的理解,提升实际操作能力。"MyNodes"这个文件可能记录了节点...

    超全大数据面试宝典-大数据面试有这套就够了.pdf

    找工作流程是大数据面试宝典的开篇,包括学习技能、编写简历、投递简历、预约面试时间、面试、等待回复、拿到offer、入职以及准备必备资料和签订合同九个步骤。这个流程帮助求职者了解从开始求职到成功入职整个过程...

    尚硅谷大数据技术之Hadoop

    【尚硅谷大数据技术之Hadoop】是一门深入探讨大数据处理技术的课程,主要聚焦于开源框架Hadoop。Hadoop是Apache软件基金会开发的一个分布式计算项目,它为大规模数据集(大于1TB)提供了高容错性的分布式存储和计算...

    最新201808达内Java大数据web阶段商城Easymall项目学习笔记和代码

    总之,"最新201808达内Java大数据web阶段商城Easymall项目学习笔记和代码"是一个综合性的学习资源,涵盖了Java Web开发和大数据处理的多个方面,适合希望提升技能或准备从事相关领域工作的学习者深入研究。...

    HADOOP学习笔记

    3. MapReduce:处理数据的计算框架。 4. Oozie:工作流调度系统,用于管理Hadoop作业和其他计算框架(如Pig、Hive等)的作业流程。 5. ZooKeeper:分布式协调服务,确保集群中的节点间通信和一致性。 6. Hive:...

Global site tag (gtag.js) - Google Analytics