`

Hadoop笔记(一) MapReduce介绍

阅读更多

 

  1. MapReduce提出了一个编程模型,该模型将问题进行抽象,并转换为一个数据集(由键值对组成)的计算。该计算由map和reduce两部分组成,提供对外的接口。
  2. 寻址时间的提高远远慢于传输速率的提高。MapReduce比较适合以批处理方式处理需要分析整个数据集的问题(ad-hoc),一次写入、多次读取数据。RDBMS适用于点查询和持续更新的数据集。        
  3. MapReduce适合处理半结构化和非结构化数据,比如分析应用服务日志。
  4. 数据本地化、无共享、MPI自身检查和恢复。
  5. Yahoo! Search有4个主要组成部分:Crawler从网页服务器爬取网页,WebMap构建一个已知网页的链接图,Indexer为最佳页面构建一个反向索引,Runtime处理用户的查询。
  6. Hadoop项目
  • Common   一组分布式文件系统和通用IO的组件与接口
  • Avro  一种支持高效、跨语言的RPC以及永久存储数据的序列化系统
  • MapReduce 分布式数据处理模型和执行环境
  • HDFS  分布式文件系统
  • Pig  一种数据流语言和运行环境,用于检索非常大的数据集
  • Hive  一个分布式、按列存储的数据库,管理HDFS存储的数据,提供基于SQL的查询语言
  • HBase  一个分布式、按列存储的数据库。HBase使用HDFS作为底层存储,同时支持MapReduce的批量式计算和点查询
  • ZooKeeper  一个分布式、可用性高的协调服务。提供分布式锁之类的基本服务用于构建分布式应用
  • Sqoop  在数据库和HDFS之间高效传输数据的工具
       

 

  • 大小: 23.9 KB
分享到:
评论

相关推荐

    05.hadoop上课笔记之hadoop5mapreduce和yarn

    本节笔记主要介绍了 Hadoop.MapReduce 和 YARN 的基本概念、组成部分、工作原理以及实践应用。 一、MapReduce 概念 MapReduce 是 Hadoop 的核心组件之一,负责处理大规模数据。MapReduce 是一种编程模型,用于处理...

    尚硅谷大数据技术之Hadoop(MapReduce)1

    【尚硅谷大数据技术之Hadoop(MapReduce)1】深入解析MapReduce MapReduce是Google提出的一种用于处理和生成大规模数据集的编程模型,被广泛应用于大数据处理领域。Hadoop将其作为核心组件,实现了分布式计算的功能...

    hadoop笔记2.pdf

    2006年,MapReduce和NDFS成为Hadoop项目的一部分,Hadoop正式诞生。 **Hadoop的主要发行版本** Hadoop的三个主要发行版本包括Apache、Cloudera、Hortonworks。Apache版本是最初的开源版本,适用于学习。Cloudera成...

    hadoop 笔记

    - **5.2.1 算法介绍**:MapReduce是一种将复杂的大数据处理任务分解为两个阶段(Map和Reduce)的编程模型。 - **5.2.2 Hadoop框架下的MapReduce**:Hadoop实现了MapReduce模型,允许用户编写Map和Reduce函数来处理...

    hadoop笔记

    Hadoop架构分析之集群结构分析,Hadoop架构分析之HDFS架构分析,Hadoop架构分析之NN和DN原生文档解读,Hadoop MapReduce原理之流程图.Hadoop MapReduce原理之核心类Job和ResourceManager解读.Hadoop MapReduce原理之...

    hadoop笔记打包下载(想学hadoop不下载后悔)

    这个压缩包“hadoop笔记打包下载(想学hadoop不下载后悔)”显然是一个丰富的学习资源集合,涵盖了Hadoop生态系统的多个重要组成部分。下面将详细解释这些关键知识点。 1. **Hadoop HDFS(Hadoop Distributed File ...

    提高hadoop的mapreduce job效率笔记

    在大数据处理领域,Hadoop MapReduce 是一个至关重要的框架,用于分布式处理海量数据。通过优化 MapReduce Job 的配置和设计,可以显著提升处理效率。以下是一些关键知识点,旨在帮助你提升 Hadoop MapReduce Job 的...

    传智黑马赵星老师hadoop七天课程资料笔记-第一天(全)

    【标题】"传智黑马赵星老师hadoop七天课程资料笔记-第一天(全)" 提供的是一份关于Hadoop的全面学习资料,主要聚焦在Hadoop的第一天课程内容。这个资源包涵盖了从基础概念到实际操作的多个方面,旨在帮助初学者快速...

    Hadoop云计算2.0笔记第一课Hadoop介绍

    Hadoop 云计算 2.0 ...Hadoop 云计算 2.0 笔记第一课 Hadoop 介绍为我们提供了 Hadoop 的生态系统特点、Hadoop 生态系统概况、HDFS 和 MapReduce 的架构和原理等方面的知识点,对于学习 Hadoop 和云计算非常有帮助。

    【大数据入门笔记系列】第五节 SpringBoot集成hadoop开发环境(复杂版的WordCount)

    【大数据入门笔记系列】第五节 SpringBoot集成hadoop开发环境(复杂版的WordCount)前言环境清单创建SpringBoot项目创建包创建yml添加集群主机名映射hadoop配置文件环境变量HADOOP_HOME编写代码添加hadoop依赖jar包...

    hadoop学习笔记.rar

    这篇笔记介绍了Hadoop的基本概念,包括Hadoop的诞生背景、核心组件以及Hadoop的优势。初学者可以从这里了解Hadoop的基本架构和工作原理,为后续的学习打下基础。 总结,Hadoop的学习涵盖了从理论理解到实践操作的多...

    最新Hadoop学习笔记

    本笔记将从环境搭建、HDFS配置、YARN配置、分布式配置到MapReduce编程,全方位介绍Hadoop的学习过程,并结合JavaWeb项目实践,帮助读者深入理解Hadoop的工作原理和应用。 ### 一、环境搭建 在开始Hadoop的学习之前...

    初学Hadoop之图解MapReduce与WordCount示例分析

    Hadoop的框架最核心的设计就是:HDFS和MapReduce。HDFS为海量的数据提供了存储,MapReduce则为海量的数据提供了计算...1、Hadoop示例程序WordCount详解及实例2、hadoop学习笔记:mapreduce框架详解3、hadoop示例程序wo

    IT十八掌徐培成HADOOP笔记

    ### IT十八掌徐培成HADOOP笔记解析 #### Hadoop概述 Hadoop是一个开源的分布式计算框架,它能够高效地处理大型数据集,并通过在集群中的多台计算机上分配数据来实现高度的并行性。Hadoop的核心组成部分包括HDFS...

    Hadoop学习笔记.pdf

    接着,MapReduce作为Hadoop的一个计算框架,主要用于大规模数据集的并行运算,它隐藏了分布式运算的复杂性,提供给用户一个简化的编程模型。在MapReduce模型中,数据处理被分成两个阶段:Map阶段和Reduce阶段。Map...

    传智黑马赵星老师hadoop七天课程资料笔记-第七天(全)

    【标题】"传智黑马赵星老师hadoop七天课程资料笔记-第七天(全)" 涵盖了Hadoop技术栈的重要知识点,这是一份关于Hadoop学习的详尽资料,特别关注了课程的最后一天内容。在Hadoop的学习过程中,第七天通常会涉及到系统...

    hadoop学习笔记

    我学习hadoop的笔记,并在公司做的报告,给大家共享下

    hadoop学习笔记(hdfs,mapreduce,yarn)

    压缩文件中包含了Hadoop生态系统、体系架构及特点,三大基本组件HDFS,MapReduce,YARN的学习笔记,文件为Markdown格式,进行了详细功能介绍说明,可以帮助大家学习hadoop的三大组件或者作为一份详细资料备份,帮助...

    Hadoop 培训笔记 及源码

    Hadoop架构分析之集群结构分析,Hadoop架构分析之HDFS架构分析,Hadoop架构分析之NN和DN原生文档解读,Hadoop MapReduce原理之流程图.Hadoop MapReduce原理之核心类Job和ResourceManager解读.Hadoop MapReduce原理之...

Global site tag (gtag.js) - Google Analytics