练功就要从扎马步开始!就算得到九阴真经基础练不好,那也是竹篮打水一场空,所以我们从基础聊起……
大纲:
介绍什么是云计算
介绍hadoop的由来
介绍hadoop的生态体系
1.什么是云计算
比较官方的描述:
云计算(英语:Cloud Computing),是一种基于互联网的计算方式,通过这种方式,共享的软硬件资源和信息可以按需提供给计算机和其他设备。典型的云计算提供商往往提供通用的网络业务应用,可以通过浏览器等软件或者其他Web服务来访问,而软件和数据都存储在服务器上。云计算服务通常提供通用的通过浏览器访问的在线商业应用,软件和数据可存储在数据中心。 狭义云计算指IT基础设施的交付和使用模式,指通过网络以按需、易扩展的方式获得所需资源;广义云计算指服务的交付和使用模式,指通过网络以按需、易扩展的方式获得所需服务。这种服务可以是IT和软件、互联网相关,也可是其他服务。它意味着计算能力也可作为一种商品通过互联网进行流通。
摘自互动百科"http://www.baike.com/wiki/云计算"
我的理解:
假设有一个1T的文件需要处理,找一台极度牛逼电脑肯定是干不了的。但是找一千台电脑,每个电脑分1G,这样不就轻松解决了嘛,这就是云计算。
云计算就是通过N太服务器集群,处理海量数据。
大家应该都知道阿里云"http://www.aliyun.com/"。这就是提供云计算服务的典型代表。在阿里云系统中,阿里公司的机房含有N多台服务器,我们在网站上可以购买他们的服务器。
在阿里云背后其实就是大规模的集群,并且可以管理,设置各种参数(CPU,内存,带宽)
2.hadoop的由来
hadoop来源于Google公司的三大论文:Bigtable、GFS(Google File System)、MapReduce。我们确实要感谢Google公司对计算机领域做出的贡献。Google公司不公布源码,但是他把思想传递给我们。
在hadoop的体系中的三大法宝:
hadoop | |
Hbase | Bigtable |
HDFS(Hadoop File System) | GFS(Google File System) |
MapReduce | MapReduce |
在附件中我提供了Google三大论文的中文版。有兴趣的盆友可以看看
3.hadoop的生态系统
说明:
HDFS: Hadoop分布式文件系统(Distributed File System) - HDFS (Hadoop Distributed File System)
MapReduce:并行计算框架,0.20前使用 org.apache.hadoop.mapred 旧接口,0.20版本开始引入org.apache.hadoop.mapreduce的新API
HBase: 类似Google BigTable的分布式NoSQL列数据库。(HBase和Avro已经于2010年5月成为顶级 Apache 项目)
Hive:数据仓库工具,由Facebook贡献。
Zookeeper:分布式锁设施,提供类似Google Chubby的功能,一个分布式的、高可用性的协调服务。提供的功能包括:配置维护、名字服务、分布式同步、组服务等,用于分布式系统的可靠协调系统,由Facebook贡献。
Avro:新的数据序列化格式与传输工具,将逐步取代Hadoop原有的IPC机制。
Pig:大数据分析平台,为用户提供多种接口。
Sqoop:于在HADOOP与传统的数据库间进行数据的传递。
生态体系现在只做一个了解,知道hadoop是什么就行。后面博客会慢慢讲解。
相关推荐
标题中的"hdfs-webdav.rar"表明这是一个关于Hadoop分布式文件系统(HDFS)与WebDAV集成的压缩包资源。WebDAV是一种基于HTTP协议的协议,允许用户编辑和管理存储在远程服务器上的文件。在Hadoop生态系统中,通过...
在大数据处理领域,Hadoop是一个不可或缺的开源框架,它提供了分布式存储和计算的能力。本文将深入探讨`hadoop_test.rar`中的API客户端及其在Hadoop测试中的应用,这对于理解和掌握Hadoop生态系统至关重要。 首先,...
Sqoop 是一个开源工具,主要用于在关系数据库管理系统(RDBMS)与 Apache Hadoop 之间进行数据迁移。这个压缩包 "sqoop-1.4.7.bin__hadoop-2.6.0.tar" 包含了 Sqoop 的 1.4.7 版本,该版本是针对 Hadoop 2.6.0 的。...
01_Hadoop_开篇_课程整体介绍.mp4 03_Hadoop_概论_大数据的特点.mp4 04_Hadoop_概论_大数据的应用场景.mp4 06_Hadoop_概论_未来工作内容.mp4 07_Hadoop_入门_课程介绍.mp4 11_Hadoop_入门_Hadoop优势.mp4 13_Hadoop_...
Hadoop是Apache软件基金会开发的一个开源框架,主要设计用于处理和存储海量数据。它采用了分布式计算模型,使得在大规模集群上处理数据变得高效且可靠。HDFS(Hadoop Distributed File System)是Hadoop的核心组件之...
在IT行业中,Hadoop是一个广泛使用的开源框架,用于存储和处理大数据。Hadoop分布式文件系统(HDFS)和MapReduce是其核心组件,允许数据在集群中的多台服务器上进行分布式计算。标题“pc机连接集群的HADOOP_HOME”指...
在大数据处理领域,Hadoop和MapReduce是两个至关重要的概念,它们构成了大数据处理的基础框架。本文将深入探讨如何使用Hadoop和MapReduce进行高效的Join查询,并解析如何通过`hadoop_join.jar`这个工具来实现这一...
Hadoop 集群配置详解 Hadoop_Hadoop集群(第1期)_CentOS安装配置 Hadoop_Hadoop集群(第2期)_机器信息分布表 Hadoop_Hadoop集群(第4期)_SecureCRT使用 Hadoop_Hadoop集群(第5期)_Hadoop安装配置 Hadoop_Hadoop...
标题 "hadoop-streaming-2.8.0_jar_2.8.0_hadoop_streaming_" 暗示我们正在讨论的是 Hadoop Streaming 的一个版本,具体是2.8.0。Hadoop Streaming 是一个 Hadoop 组件,允许用户使用可执行的脚本(如 Python 或 ...
在Windows系统上安装Hadoop是一项技术性较强的任务,涉及到多个步骤和配置,本文将依据"在Windows上安装Hadoop教程.zip_YJVH_hadoop_hadoop book"提供的详细指南,为您全面解析这一过程。 首先,Hadoop是Apache软件...
标题“hadoop-test-report.zip_hadoop_hadoop word_压力测试报告”指出这是一个关于Hadoop的测试报告,特别关注了Hadoop在处理Word数据时的压力测试情况。"hadoop_test_report.doc"是压缩包内的文档,很可能是详细的...
01_hadoop_hdfs1分布式文件系统01 02_hadoop_hdfs1分布式文件系统02 03_hadoop_hdfs1分布式文件系统03 04_hadoop_hdfs1分布式文件系统04 05_hadoop_hdfs1分布式文件系统05 06_hadoop_hdfs1分布式文件系统06 07_...
Sqoop是一个用于在Hadoop和关系数据库或大型机之间传输数据的工具。您可以使用Sqoop将关系数据库管理系统(RDBMS)中的数据导入Hadoop分布式文件系统(HDFS),转换Hadoop MapReduce中的数据,然后将数据导出回RDBMS...
Sqoop 是一个用于在 Apache Hadoop 和传统关系型数据库之间高效传输数据的工具。这个压缩包 "sqoop-1.4.6.bin__hadoop-2.0.4-alpha.tar.gz" 包含了 Sqoop 的 1.4.6 版本,它已针对 Hadoop 2.0.4-alpha 版本进行了...
Sqoop 是一个开源工具,主要用于在关系型数据库(如MySQL、Oracle等)和Apache Hadoop之间进行数据导入导出。这个压缩包 "sqoop-1.4.6.bin__hadoop-2.0.4-alpha.zip" 包含的是Sqoop 1.4.6版本,针对Hadoop 2.0.4-...
《Hadoop Eclipse Plugin 2.6.0:高效开发与测试工具》 Hadoop作为大数据处理的核心框架,为开发者提供了强大的分布式存储和计算能力。在实际的开发过程中,为了提高效率并减少错误,Hadoop提供了Eclipse插件,即...
《HDFS设计与操作——基于Hadoop的Java实践》 Hadoop分布式文件系统(HDFS)是Apache Hadoop项目的核心组件之一,它为大规模数据处理提供了可扩展、高容错性的存储解决方案。本资料集围绕“hdfs_design.rar”这个...
hadoop从零开始 细节问题细得不能再细 新手绝对入门的圣经 1.细细品味Hadoop_Hadoop集群(第1期)_CentOS安装配置 2.细细品味Hadoop_Hadoop集群(第2期)_机器信息分布表 3.细细品味Hadoop_Hadoop集群(第3期)_...
**Hadoop:开启分布式计算之旅** Hadoop是Apache软件基金会的一个开源项目,它是一个用于处理和存储大量数据的分布式计算框架。Hadoop的核心组件包括Hadoop Distributed File System (HDFS) 和 MapReduce,这两个...
在IT行业中,Hadoop是一个广泛使用的开源框架,主要用于大数据处理和分布式存储。它是由Apache软件基金会维护的,其设计目标是使大型数据集能够在普通硬件集群上高效运行。标题"hadop_dll2.6.0_64bit_windows_dll_...