`
zc985552943
  • 浏览: 291034 次
  • 性别: Icon_minigender_1
  • 来自: 北京
博客专栏
Babe4ca6-5e6f-33aa-9078-762ee3ccfb7e
云计算--hadoop
浏览量:11868
5e98c2c1-2a82-3388-bc80-7fca0170bb12
redis解说
浏览量:27149
088014c7-4d3f-39ce-b72e-4ebe7046a134
MongoDB读书笔记
浏览量:16009
D2b74847-c860-3e26-96fe-3fa4498d6348
Maven读书笔记
浏览量:27239
688db20f-402d-3a1d-8188-d6153d6c7465
Java通信
浏览量:13679
社区版块
存档分类
最新评论

001_扎马步_初识hadoop

阅读更多

练功就要从扎马步开始!就算得到九阴真经基础练不好,那也是竹篮打水一场空,所以我们从基础聊起……

大纲:

介绍什么是云计算

介绍hadoop的由来

介绍hadoop的生态体系

1.什么是云计算
比较官方的描述:
云计算(英语:Cloud Computing),是一种基于互联网的计算方式,通过这种方式,共享的软硬件资源和信息可以按需提供给计算机和其他设备。典型的云计算提供商往往提供通用的网络业务应用,可以通过浏览器等软件或者其他Web服务来访问,而软件和数据都存储在服务器上。云计算服务通常提供通用的通过浏览器访问的在线商业应用,软件和数据可存储在数据中心。 狭义云计算指IT基础设施的交付和使用模式,指通过网络以按需、易扩展的方式获得所需资源;广义云计算指服务的交付和使用模式,指通过网络以按需、易扩展的方式获得所需服务。这种服务可以是IT和软件、互联网相关,也可是其他服务。它意味着计算能力也可作为一种商品通过互联网进行流通。
摘自互动百科"http://www.baike.com/wiki/云计算"
我的理解:
假设有一个1T的文件需要处理,找一台极度牛逼电脑肯定是干不了的。但是找一千台电脑,每个电脑分1G,这样不就轻松解决了嘛,这就是云计算。
云计算就是通过N太服务器集群,处理海量数据。
大家应该都知道阿里云"http://www.aliyun.com/"。这就是提供云计算服务的典型代表。在阿里云系统中,阿里公司的机房含有N多台服务器,我们在网站上可以购买他们的服务器。
在阿里云背后其实就是大规模的集群,并且可以管理,设置各种参数(CPU,内存,带宽)

2.hadoop的由来
hadoop来源于Google公司的三大论文:Bigtable、GFS(Google File System)、MapReduce。我们确实要感谢Google公司对计算机领域做出的贡献。Google公司不公布源码,但是他把思想传递给我们。
在hadoop的体系中的三大法宝:

hadoop Google
Hbase Bigtable
HDFS(Hadoop File System) GFS(Google File System)
MapReduce MapReduce


在附件中我提供了Google三大论文的中文版。有兴趣的盆友可以看看

3.hadoop的生态系统

 说明:
HDFS: Hadoop分布式文件系统(Distributed File System) - HDFS (Hadoop Distributed File System)
MapReduce:并行计算框架,0.20前使用 org.apache.hadoop.mapred 旧接口,0.20版本开始引入org.apache.hadoop.mapreduce的新API
HBase: 类似Google BigTable的分布式NoSQL列数据库。(HBase和Avro已经于2010年5月成为顶级 Apache 项目)
Hive:数据仓库工具,由Facebook贡献。
Zookeeper:分布式锁设施,提供类似Google Chubby的功能,一个分布式的、高可用性的协调服务。提供的功能包括:配置维护、名字服务、分布式同步、组服务等,用于分布式系统的可靠协调系统,由Facebook贡献。
Avro:新的数据序列化格式与传输工具,将逐步取代Hadoop原有的IPC机制。
Pig:大数据分析平台,为用户提供多种接口。
Sqoop:于在HADOOP与传统的数据库间进行数据的传递。

生态体系现在只做一个了解,知道hadoop是什么就行。后面博客会慢慢讲解。

  • 大小: 45.7 KB
分享到:
评论
1 楼 annmi_cai 2016-03-11  
好好学习,天天向上!

相关推荐

    hdfs-webdav.rar_hadoop_hadoop webdav_hadoop 系统_hadoop2.0 d_hdfs

    标题中的"hdfs-webdav.rar"表明这是一个关于Hadoop分布式文件系统(HDFS)与WebDAV集成的压缩包资源。WebDAV是一种基于HTTP协议的协议,允许用户编辑和管理存储在远程服务器上的文件。在Hadoop生态系统中,通过...

    hadoop_test.rar_API_client_hadoop test 作用_hadoop test_hadoop-te

    在大数据处理领域,Hadoop是一个不可或缺的开源框架,它提供了分布式存储和计算的能力。本文将深入探讨`hadoop_test.rar`中的API客户端及其在Hadoop测试中的应用,这对于理解和掌握Hadoop生态系统至关重要。 首先,...

    sqoop-1.4.7.bin__hadoop-2.6.0.tar

    Sqoop 是一个开源工具,主要用于在关系数据库管理系统(RDBMS)与 Apache Hadoop 之间进行数据迁移。这个压缩包 "sqoop-1.4.7.bin__hadoop-2.6.0.tar" 包含了 Sqoop 的 1.4.7 版本,该版本是针对 Hadoop 2.6.0 的。...

    大数据技术Hadoop3.x 2021年

    01_Hadoop_开篇_课程整体介绍.mp4 03_Hadoop_概论_大数据的特点.mp4 04_Hadoop_概论_大数据的应用场景.mp4 06_Hadoop_概论_未来工作内容.mp4 07_Hadoop_入门_课程介绍.mp4 11_Hadoop_入门_Hadoop优势.mp4 13_Hadoop_...

    hdfs.rar_hadoop_hadoop ubuntu_hdfs_分布式系统_基于hadoop

    Hadoop是Apache软件基金会开发的一个开源框架,主要设计用于处理和存储海量数据。它采用了分布式计算模型,使得在大规模集群上处理数据变得高效且可靠。HDFS(Hadoop Distributed File System)是Hadoop的核心组件之...

    pc机连接集群的HADOOP_HOME

    在IT行业中,Hadoop是一个广泛使用的开源框架,用于存储和处理大数据。Hadoop分布式文件系统(HDFS)和MapReduce是其核心组件,允许数据在集群中的多台服务器上进行分布式计算。标题“pc机连接集群的HADOOP_HOME”指...

    hadoop_join.jar.zip_hadoop_hadoop query_reduce

    在大数据处理领域,Hadoop和MapReduce是两个至关重要的概念,它们构成了大数据处理的基础框架。本文将深入探讨如何使用Hadoop和MapReduce进行高效的Join查询,并解析如何通过`hadoop_join.jar`这个工具来实现这一...

    Hadoop集群pdf文档

    Hadoop 集群配置详解 Hadoop_Hadoop集群(第1期)_CentOS安装配置 Hadoop_Hadoop集群(第2期)_机器信息分布表 Hadoop_Hadoop集群(第4期)_SecureCRT使用 Hadoop_Hadoop集群(第5期)_Hadoop安装配置 Hadoop_Hadoop...

    hadoop-streaming-2.8.0_jar_2.8.0_hadoop_streaming_

    标题 "hadoop-streaming-2.8.0_jar_2.8.0_hadoop_streaming_" 暗示我们正在讨论的是 Hadoop Streaming 的一个版本,具体是2.8.0。Hadoop Streaming 是一个 Hadoop 组件,允许用户使用可执行的脚本(如 Python 或 ...

    在Windows上安装Hadoop教程.zip_YJVH_hadoop_hadoop book

    在Windows系统上安装Hadoop是一项技术性较强的任务,涉及到多个步骤和配置,本文将依据"在Windows上安装Hadoop教程.zip_YJVH_hadoop_hadoop book"提供的详细指南,为您全面解析这一过程。 首先,Hadoop是Apache软件...

    hadoop-test-report.zip_hadoop_hadoop word_压力测试报告

    标题“hadoop-test-report.zip_hadoop_hadoop word_压力测试报告”指出这是一个关于Hadoop的测试报告,特别关注了Hadoop在处理Word数据时的压力测试情况。"hadoop_test_report.doc"是压缩包内的文档,很可能是详细的...

    hadoop_hadoop-2.7.2-hbase-jar.rar linux下包

    标题 "hadoop_hadoop-2.7.2-hbase-jar.rar" 提供的信息表明,这是一个与Hadoop相关的压缩文件,具体来说是Hadoop 2.7.2版本的HBase JAR文件。Hadoop是一个开源框架,主要用于分布式存储和处理大数据。而HBase是建立...

    sqoop-1.4.6.bin__hadoop-2.0.4-alpha.tar.zip

    Sqoop 是一个开源工具,主要用于在关系型数据库(如 MySQL、Oracle 等)与 Hadoop 的 HDFS(Hadoop Distributed File System)之间进行数据迁移。这个压缩包 "sqoop-1.4.6.bin__hadoop-2.0.4-alpha.tar.zip" 包含了 ...

    hadoop详细视频教程

    01_hadoop_hdfs1分布式文件系统01 02_hadoop_hdfs1分布式文件系统02 03_hadoop_hdfs1分布式文件系统03 04_hadoop_hdfs1分布式文件系统04 05_hadoop_hdfs1分布式文件系统05 06_hadoop_hdfs1分布式文件系统06 07_...

    sqoop-1.4.6.bin__hadoop-2.0.4-alpha安装包

    Sqoop是一个用于在Hadoop和关系数据库或大型机之间传输数据的工具。您可以使用Sqoop将关系数据库管理系统(RDBMS)中的数据导入Hadoop分布式文件系统(HDFS),转换Hadoop MapReduce中的数据,然后将数据导出回RDBMS...

    sqoop-1.4.6.bin__hadoop-2.0.4-alpha.tar.gz

    Sqoop 是一个用于在 Apache Hadoop 和传统关系型数据库之间高效传输数据的工具。这个压缩包 "sqoop-1.4.6.bin__hadoop-2.0.4-alpha.tar.gz" 包含了 Sqoop 的 1.4.6 版本,它已针对 Hadoop 2.0.4-alpha 版本进行了...

    sqoop-1.4.6.bin__hadoop-2.0.4-alpha.zip

    Sqoop 是一个开源工具,主要用于在关系型数据库(如MySQL、Oracle等)和Apache Hadoop之间进行数据导入导出。这个压缩包 "sqoop-1.4.6.bin__hadoop-2.0.4-alpha.zip" 包含的是Sqoop 1.4.6版本,针对Hadoop 2.0.4-...

    hadoop-eclipse-plugin-2.6.0.jar.zip_2.6.0_hadoop_hadoop plugin

    《Hadoop Eclipse Plugin 2.6.0:高效开发与测试工具》 Hadoop作为大数据处理的核心框架,为开发者提供了强大的分布式存储和计算能力。在实际的开发过程中,为了提高效率并减少错误,Hadoop提供了Eclipse插件,即...

    hdfs_design.rar_HDFS-OPERATE_hadoop_hadoop java_hdfs

    《HDFS设计与操作——基于Hadoop的Java实践》 Hadoop分布式文件系统(HDFS)是Apache Hadoop项目的核心组件之一,它为大规模数据处理提供了可扩展、高容错性的存储解决方案。本资料集围绕“hdfs_design.rar”这个...

    hadoop入门最好的文档

    hadoop从零开始 细节问题细得不能再细 新手绝对入门的圣经 1.细细品味Hadoop_Hadoop集群(第1期)_CentOS安装配置 2.细细品味Hadoop_Hadoop集群(第2期)_机器信息分布表 3.细细品味Hadoop_Hadoop集群(第3期)_...

Global site tag (gtag.js) - Google Analytics