`
pengpeng
  • 浏览: 84865 次
  • 性别: Icon_minigender_1
  • 来自: 杭州
社区版块
存档分类
最新评论

hadoop概念

阅读更多

 1. hadoop概念

 Provide easy but general model for programmers to use cluster resources

   Hide network communication (i.e. RPCs)
   Hide storage details, file chunks are automatically distributed and replicated
   Provide transparent fault tolerance
   Failed tasks are automatically rescheduled on live nodes
   High throughput and automatic load balancing
   E.g. scheduling tasks on nodes that already have data
 
2. dbms vs bigtable
 
  

 
3. hadoop 特性
    1>流动的计算:而不是让数据流动;其实hadoop自动将数据分片存储到集群,每个节点尽力只计算自己节点的data;
    2>可靠性,容错性:自动分派数据和负载均衡;将坏掉的节点的任务自动分派给其他持有此节点数据的其他节点上去执行;
    3>数据冗余:每份数据最少存在3份:除了自身机器,并将数据存在于同机架和不同机架各一份;
    4>伸缩性:可以通过增加机器数量增强计算和存储;满足不断膨胀的需求。
    5>开发友好性:开发人员很容易编写m/r;不用关注hadoop/hdfs的内部实现;而且配置简单。
    6> 经济:利用廉价pc机器搭建强大的计算平台;
4. map/reducer
    1>利用stream 跨语言支持写M/R;
 
  • 大小: 45.7 KB
分享到:
评论

相关推荐

    Big-Data-Processing-with-Hadoop---A-Complete-Reference-Guide:使用高级Hadoop概念设计,构建和执行有效的大数据策略

    使用高级Hadoop概念设计,构建和执行有效的大数据策略Apache Hadoop是用于分布式存储和数据处理的最受欢迎的大数据解决方案之一。 该学习路径将使您能够轻松地使用Hadoop以及一系列其他大数据工具来构建解决方案。 ...

    hadoop经典实战教程

    - **Hadoop概念**:Hadoop是一个能够对大量数据进行分布式处理的软件框架。它通过提供高可靠性和高扩展性的分布式计算能力,使得用户能够在廉价的商用硬件上处理PB级别的数据。 - **Hadoop核心组件**: - **HDFS ...

    Pro Apache Hadoop, 2nd Edition

    Hadoop概念(Hadoop Concepts)** 第二章深入探讨了Hadoop的核心概念,包括其架构和组件。Hadoop基于YARN框架构建,YARN是Hadoop 2.x中的一个重大更新,它重构了原有架构,优化了资源管理和任务调度。 **3. Hadoop...

    第3章Hadoop础述_hadoop_

    在【压缩包子文件的文件名称列表】中,"第3章Hadoop基础概述.pptx"可能包含了关于Hadoop概念、架构、组件介绍、使用案例和最佳实践等内容的详细讲解。通过深入学习这个文件,读者可以全面掌握Hadoop的基础知识,为...

    Hadoop部署实验.docx

    本文档涵盖了 Hadoop 部署的基本概念、实验步骤、分布式安装和 MapReduce 应用程序实践。该文档旨在帮助读者了解 Hadoop 的基本架构、HDFS 和 MapReduce 的原理,并掌握 Hadoop 的多节点部署过程和 MapReduce 应用...

    window上安装hadoop,直接替换bin目录,通用2.8以下所有版本

    在Windows环境下安装和运行Hadoop是一项常见的任务,尤其对于学习大数据处理或开发分布式应用程序的人员来说。本指南将详细介绍如何在Windows系统上安装Hadoop,适用于...这对于学习Hadoop概念和开发相关应用非常有用。

    Pro Apache Hadoop 2nd Edition 2014

    2. **第2章:Hadoop概念** - 这一章介绍了Hadoop的基本概念,包括Hadoop的历史、设计哲学、核心组件(如HDFS、MapReduce和YARN)等,为读者提供了一个全面的概念框架。 3. **第3章:开始使用Hadoop框架** - 在这一...

    Hadoop实战中文版

    知识点一:Hadoop概念及其架构 Hadoop是Apache软件基金会下的一个项目,它提供了一个框架,这个框架能够存储和处理大数据。Hadoop的架构分为几个核心组件,主要包含Hadoop分布式文件系统(HDFS),以及基于MapReduce...

    基于Hadoop短视频流量数据分析与可视化.docx

    Hadoop 概念 Hadoop 是一个开源的大数据处理框架,由 Doug Cutting 和 Mike Cafarella 于 2005 年创立。它是一个分布式计算系统,能够处理大规模数据集。Hadoop 的核心组件包括 HDFS(Hadoop Distributed File ...

    hadoop实战、hbase in Action

    从基础的Hadoop概念,到HBase的深入理解和实战应用,读者可以逐步掌握大数据处理的关键技术和工具。无论你是初学者还是经验丰富的开发者,都能从中受益匪浅,提升自己在大数据领域的能力。通过阅读这些书籍,你可以...

    Hadoop实战-陆嘉恒高清完整版

    此外,书中的"高清"标签意味着读者可以享受到清晰的图表和代码示例,这对于理解复杂的Hadoop概念和技术细节非常有帮助。"中文"标签则表明该书是用中文编写的,对于国内读者来说,可以更轻松地理解和学习,避免了语言...

    hadoop笔记

    \n\n一、Hadoop概念\n\n1. Hadoop官方网站:http://hadoop.apache.org/\n 这是获取官方文档、源码和最新版本信息的地方。\n\n2. 下载Hadoop:archive.apache.org\n 用户可以在这里下载适合自己的Hadoop发行版。\n\...

    云计算与大数据技术-Hadoop分布式大数据系统.rar

    5. 高级Hadoop概念,如YARN资源调度器、HBase分布式数据库和Hadoop与其他大数据技术的集成。 6. 实战案例,展示Hadoop如何解决特定行业的数据处理挑战。 通过深入学习这些内容,读者可以掌握利用Hadoop和云计算处理...

    基于Hadoop的海量数据分析系统设计与实现.docx

    ##### 2.1 Hadoop概念及架构 Hadoop是一种开源框架,用于处理和存储大型数据集。它最初由Apache软件基金会开发,主要由两个核心组件构成:Hadoop Distributed File System (HDFS) 和 MapReduce。HDFS负责数据的...

    Hadoop基本概念与架构

    Hadoop基本概念与架构,背景介绍和hadoop介绍,Hadoop生态系统介绍

    hadoop组件程序包.zip

    2. 分布式思维:理解Hadoop可以帮助初学者建立起分布式系统的概念,培养处理复杂系统问题的能力。 3. 职业发展:熟悉Hadoop的开发者在大数据领域有广阔的就业前景,如数据工程师、大数据分析师等。 总结,"hadoop...

    hadoop插件apache-hadoop-3.1.0-winutils-master.zip

    尽管有一些额外的挑战,但通过正确配置和理解这些核心概念,你可以在Windows上构建一个功能完备的Hadoop集群。这对于Windows开发者和测试环境来说非常有价值,他们可以在本地系统上进行Hadoop相关的开发和实验,而...

    Hadoop简单应用案例

    在这个"**HadoopDemo-master**"项目中,你将有机会实践这些概念,通过实际操作加深理解。MapReduce的编程模型、HDFS的文件操作、Zookeeper的集群管理以及Hive的数据分析都将是你探索的重点。这不仅有助于提升你的...

Global site tag (gtag.js) - Google Analytics