大数据和云计算二者的区别
关于大数据和云计算的关系人们通常会有误解。而且也会把它们混起来说,分别做一句话直白解释就是:云
计算就是硬件资源的虚拟化;大数据就是海量数据的高效处理。
虽然上面的一句话解释不是非常的贴切,但是可以帮助你简单的理解二者的区别。另外,如果做一个更形象的解释,云计算相当于我们的计算机和操作系统,将大量的硬件资源虚拟化之后再进行分配使用,在云计算领域目前的老大应该算是Amazon,可以说为云计算提供了商业化的标准,另外值得关注的还有VMware(其实从这一点可以帮助你理解云计算和虚拟化的关系),开源的云平台最有活力的就是Openstack了;
大数据相当于海量数据的“数据库”,而且通观大数据领域的发展也能看出,当前的大数据处理一直在向着近似于传统数据库体验的方向发展,Hadoop的产生使我们能够用普通机器建立稳定的处理TB级数据的集群,把传统而昂贵的并行计算等概念一下就拉到了我们的面前,但是其不适合数据分析人员使用(因为MapReduce开发复杂),所以PigLatin和Hive出现了(分别是Yahoo!和facebook发起的项目,说到这补充一下,在大数据领域Google、facebook、twitter等前沿的互联网公司作出了很积极和强大的贡献),为我们带来了类SQL的操作,到这里操作方式像SQL了,但是处理效率很慢,绝对和传统的数据库的处理效率有天壤之别,所以人们又在想怎样在大数据处理上不只是操作方式类SQL,而处理速度也能“类SQL”,Google为我们带来了Dremel/PowerDrill等技术,Cloudera(Hadoop商业化最强的公司,Hadoop之父cutting就在这里负责技术领导)的Impala也出现了。
整体来看,未来的趋势是,云计算作为计算资源的底层,支撑着上层的大数据处理,而大数据的发展趋势是,实时交互式的查询效率和分析能力,借用Google一篇技术论文中的话,“动一下鼠标就可以在秒级操作PB级别的数据”难道不让人兴奋吗?
在谈大数据的时候,首先谈到的就是大数据的4V特性,即类型复杂,海量,快速和价值。IBM原来谈大数据的时候谈3V,没有价值这个V。而实际我们来看4V更加恰当,价值才是大数据问题解决的最终目标,其它3V都是为价值目标服务。在有了4V的概念后,就很容易简化的来理解大数据的核心,即大数据的总体架构包括三层,数据存储,数据处理和数据分析。类型复杂和海量由数据存储层解决,快速和时效性要求由数据处理层解决,价值由数据分析层解决。
数据先要通过存储层存储下来,然后根据数据需求和目标来建立相应的数据模型和数据分析指标体系对数据进行分析产生价值。而中间的时效性又通过中间数据处理层提供的强大的并行计算和分布式计算能力来完成。三层相互配合,让大数据最终产生价值。
数据存储层
数据有很多分法,有结构化,半结构化,非结构化;也有元数据,主数据,业务数据;还可以分为GIS,视频,文件,语音,业务交易类各种数据。传统的结构化数据库已经无法满足数据多样性的存储要求,因此在RDBMS基础上增加了两种类型,一种是hdfs可以直接应用于非结构化文件存储,一种是nosql类数据库,可以应用于结构化和半结构化数据存储。
从存储层的搭建来说,关系型数据库,NoSQL数据库和hdfs分布式文件系统三种存储方式都需要。业务应用根据实际的情况选择不同的存储模式,但是为了业务的存储和读取方便性,我们可以对存储层进一步的封装,形成一个统一的共享存储服务层,简化这种操作。从用户来讲并不关心底层存储细节,只关心数据的存储和读取的方便性,通过共享数据存储层可以实现在存储上的应用和存储基础设置的彻底解耦。
数据处理层
数据处理层核心解决问题在于数据存储出现分布式后带来的数据处理上的复杂度,海量存储后带来了数据处理上的时效性要求,这些都是数据处理层要解决的问题。
在传统的云相关技术架构上,可以将hive,pig和hadoop-mapreduce框架相关的技术内容全部划入到数据处理层的能力。原来我思考的是将hive划入到数据分析层能力不合适,因为hive重点还是在真正处理下的复杂查询的拆分,查询结果的重新聚合,而mapreduce本身又实现真正的分布式处理能力。
mapreduce只是实现了一个分布式计算的框架和逻辑,而真正的分析需求的拆分,分析结果的汇总和合并还是需要hive层的能力整合。最终的目的很简单,即支持分布式架构下的时效性要求。
数据分析层
最后回到分析层,分析层重点是真正挖掘大数据的价值所在,而价值的挖掘核心又在于数据分析和挖掘。那么数据分析层核心仍然在于传统的BI分析的内容。包括数据的维度分析,数据的切片,数据的上钻和下钻,cube等。
数据分析我只关注两个内容,一个就是传统数据仓库下的数据建模,在该数据模型下需要支持上面各种分析方法和分析策略;其次是根据业务目标和业务需求建立的KPI指标体系,对应指标体系的分析模型和分析方法。解决这两个问题基本解决数据分析的问题。
传统的BI分析通过大量的ETL数据抽取和集中化,形成一个完整的数据仓库,而基于大数据的BI分析,可能并没有一个集中化的数据仓库,或者将数据仓库本身也是分布式的了,BI分析的基本方法和思路并没有变化,但是落地到执行的数据存储和数据处理方法却发生了大变化。
谈了这么多,核心还是想说明大数据两大核心为云技术和BI,离开云技术大数据没有根基和落地可能,离开BI和价值,大数据又变化为舍本逐末,丢弃关键目标。简单总结就是大数据目标驱动是BI,大数据实施落地式云技术。
相关推荐
本文从多个角度探讨了大数据和云计算如何结合并支持人工智能的进步,以及在二者的共同作用下,人工智能将如何呈现新的发展趋势。 首先,让我们来分析人工智能利用云计算与大数据的运行机制。人工智能的算法发展,...
大数据与云计算是当今通信行业发展的重要驱动力,二者结合在推动通信技术革新、提升服务质量、增强安全性以及降低成本方面发挥着关键作用。以下是对大数据与云计算在通信行业中应用的详细分析: 一、大数据与云计算...
目前,地理信息大数据与云计算技术正处于快速发展阶段,二者的结合为测绘地理信息领域带来了新的变革和挑战。随着城市化进程的加快,地理信息系统在城市建设中扮演着越来越重要的角色。因此,理解和掌握地理信息...
大数据和云计算作为当代信息技术的重要组成部分,对传统会计行业产生了深刻的影响。传统会计指的是通过收集、记录、确认、计量和报告财务信息,对企业或个人的经济活动进行监督和核算的活动。但随着信息技术的发展,...
随着技术的不断演进和对数据处理能力的日益增长的需求,大数据与云计算相结合成为了一种必然的趋势。 首先,大数据与云计算之间存在着密切的关系。二者在技术实现上都依赖于计算机资源。大数据技术主要围绕着数据的...
在信息技术领域,大数据与云计算已成为推动时代前行的重要力量,二者相辅相成,共同开启了数据处理和信息管理的新纪元。大数据所指涉的是海量、高速、多样和具有潜在价值的数据集合,而云计算则为大数据提供了处理和...
大数据和云计算是现代信息技术领域中的两个重要概念,它们相互关联,共同推动了信息化时代的进步。首先,我们来深入了解这两个概念。 大数据,正如百度百科所描述的,是指在一定时间内无法用传统软件工具处理的大量...
教学内容应包括:云计算与大数据的起源、定义、特征和作用以及二者之间的关系;大数据存储、处理、分析等关键技术;云存储、云服务和云安全;分布式文件系统、分布式文件存储平台、Hadoop、Hbase、HDFS等。 在...
### 大数据与云计算发展 #### 一、大数据与云计算概述 **1.1 大数据的定义和特征** - **定义**: 大数据是...通过对大数据的高效管理和利用,结合云计算的强大支撑能力,企业和组织可以更好地应对未来的挑战和机遇。
标题“浅谈大数据与云计算的协同发展”和描述中所提到的知识点涵盖大数据和云计算的基本概念、二者如何相互协同影响商业模式变革、它们之间的差异以及云技术如何带来大数据领域的变革和价值。 云计算概念上,根据...
文章的作者赵新博和曾琦,分别来自山东传媒职业学院,他们从事大数据云计算领域的研究,为相关技术的探索和应用提供了专业的指导和分析。 总体而言,大数据与云计算技术的研究对于促进信息技术的发展、优化企业运营...
3. **数据安全与隐私**:随着GDPR等数据保护法规的出台,数据安全和隐私保护将成为大数据与云计算领域的重要议题,相关技术和解决方案将得到更多关注。 4. **绿色计算**:在环保意识日益增强的背景下,绿色计算将...
同时,高校还需对治理结构、专业体系、课程内容、教学方式、师资结构等进行全面系统的改革,以适应大数据与云计算的快速发展和应用需求。 在有限的学期课时内,要使学生深刻理解必要的理论知识并掌握一定的实践能力...
大数据和云计算是现代计算机信息技术领域内的重要研究方向,二者不仅在学术界受到广泛关注,更是互联网应用发展的关键领域。大数据指的是无法用传统数据库工具进行管理和分析的大量数据集合,它通常来源于互联网、...
随着信息技术的迅猛发展,特别是大数据和云计算技术的普及应用,企业财务管理领域正在经历一场深刻的变革。管理会计与财务会计,这两个传统上功能分明的会计分支,在现代企业经营管理和决策支持中展现出越来越强的...
本文通过对云计算以及 4G 网络的定义和特点进行分析,提出了在 4G 移动网络平台上采用云计算技术处理城市智能交通系统中的大数据问题,主要是结合二者的优势分析智能交通系统的功能,并加以实现,这将给缓解交通压力...
云计算和大数据是当今IT技术发展的两个重要方向,它们的发展和应用深刻地影响着我们的生活和工作。本文将从概念、技术特点、应用领域、相互关系以及发展趋势等方面,对这两者进行详细阐释。 云计算是一种基于互联网...
大数据与云计算的关系密切,大数据的挖掘和分析离不开云计算的分布式计算、分布式数据库和云存储等技术。 【云计算】 云计算是一种基于互联网的计算模式,允许共享硬件和信息资源,根据需求为各种设备提供服务。云...
云计算和大数据紧密相连,但二者并非同一概念。云计算主要是一种资源交付和管理模式,通过网络提供按需访问的计算服务,包括存储、处理、应用程序和服务,强调的是资源共享和服务化。而大数据则是云计算的重要应用...
二者结合,大数据云计算环境为数据的处理和分析带来了前所未有的便利,但同时也带来了严峻的数据安全挑战。 大数据的5V特征,即大量性(Volume)、高速性(Velocity)、多样性(Variety)、真实性和价值性(Veracity and ...