阅读更多

0顶
0踩

行业应用
大数据和区块链两者之间有个共同的关键词:分布式,代表了一种从技术权威垄断到去中心化的转变。

分布式存储:HDFS vs. 区块
大数据,需要应对海量化和快增长的存储,这要求底层硬件架构和文件系统在性价比上要大大高于传统技术,能够弹性扩张存储容量。谷歌的GFS和Hadoop的HDFS奠定了大数据存储技术的基础。另外,大数据对存储技术提出的另一个挑战是多种数据格式的适应能力,因此现在大数据底层的存储层不只是HDFS,还有HBase和Kudu等存储架构。

区块链,是比特币的底层技术架构,它在本质上是一种去中心化的分布式账本。区块链技术作为一种持续增长的、按序整理成区块的链式数据结构,通过网络中多个节点共同参与数据的计算和记录,并且互相验证其信息的有效性。从这一点来说,区块链技术也是一种特定的数据库技术。由于去中心化数据库在安全、便捷方面的特性,很多业内人士看好其发展,认为它是对现有互联网技术的升级与补充。

分布式计算:MapReduce vs. 共识机制
大数据的分析挖掘是数据密集型计算,需要巨大的分布式计算能力。节点管理、任务调度、容错和高可靠性是关键技术。Google和Hadoop的MapReduce是这种分布式计算技术的代表,通过添加服务器节点可线性扩展系统的总处理能力(Scale Out),在成本和可扩展性上都有巨大的优势。现在,除了批计算,大数据还包括了流计算、图计算、实时计算、交互查询等计算框架。

区块链的共识机制,就是所有分布式节之间怎么达成共识,通过算法来生成和更新数据,去认定一个记录的有效性,这既是认定的手段,也是防止篡改的手段。区块链主要包括四种不同的共识机制,适用于不同的应用场景,在效率和安全性之间取得平衡。以比特币为例,采用的是“工作量证明”(Proof Of Work,简称POW),只有在控制了全网超过51%的记账节点的情况下,才有可能伪造出一条不存在的记录。

IT技术发展的分分合合
和人类社会一样,IT技术发展的也呈现出“合久必分,分久必合”,即集中与分布的螺旋式上升。

计算机诞生初期,仅能实现一对一的使用,是集中化的。为了使得一台大型机能够同时为多个客户提供服务,IBM公司引入了虚拟化的设计思想,使得多个客户在同时使用同一台大型机时,就好像将其分割成了多个小型化的虚拟主机,是时分复用的集中式计算。

进入小型机和PC时代,回归了一对一的使用,不过设备已经分散到了千家万户。进入互联网时代,C/S模型的客户端和服务器是分布式计算,只不过服务器之间还是分散的。

进入云计算时代,计算能力又被统一管控起来,在客户端和服务器的分布式计算基础之上,服务器之间也开始了分布式协同工作。因为协同,所以也可以认为它们在整体上是一种集中式的计算服务。

进入大数据时代,云计算成为大数据基础设施,也使得大数据的核心思想和云计算一脉相承。MapReduce将任务分解进行分布式计算,然后将结果合并从而实现了信息的整合分析。

区块链则是纯粹意义上的分布式系统。

是什么力量造成了集中与分布的此消彼长?
让我们从历史中试着寻找答案。

商业需要集中,希望通过产品实现更好的控制和更高的利润。但随着产品集中度的不断上升,系统会越来越复杂,实现的难度越来越大,沟通、交流和管理的成本也越来越高,最终变得不经济。

社会需要分工,让专业的人做专业的事,涂尔干的《社会分工论》谈到,“分工使社会像有机体一样,每个成员都为社会整体服务,同时又不能脱离整体,分工就像社会的纽带,故谓之‘有机团结’。”

分布式技术的诞生,正是基于这种思想。产品功能被分解并分布到不同的节点上去完成,节点之间通过网络实现沟通。分布式系统中的一些节点或因为商业上的成功,重新成为“集中化”的节点,但随着时代的改变,它们终将会进入新一轮的分布式周期。如此往复。

集中和分布不是光谱的两端,任何伟大的产品,都是商业和技术的“有机团结”。

以上是区块链与大数据之间的一些相同点,接下来聊一聊两者之间的不同点。
两者属于不同的时代,区块链继大数据之后的又一次技术革命。

两个技术处于不同的生命周期
——Gartner Hype Cycle

技术成熟度曲线(The Hype Cycle)是咨询公司Gartner用来分析和预测各种新科技的成熟演变速度及所需时间著名工具。

“大数据”与“区块链”在Gartner历年的《技术成熟度曲线》中的出现情况
2011年,“大数据”第一次上榜,位于技术萌芽期的爬坡阶段,当时还统称为“‘Big Data’ and Extreme Information Processing and Management”(“大数据”和极端信息处理和管理)。2012年更进一步,并在2013年几乎达到了过热期顶峰。经历了2014年的下滑,从2015年开始,“大数据”突然从曲线中消失,可解读为Gartner对大数据的定位已从“新兴”转为“主流”。当前,大数据对于企业的意义已从能力要素上升为战略核心。

相对而言,“区块链”直到2016年才第一次出现在《技术成熟度曲线》中,并直接进入“过热期”。总的来看,“大数据”和“区块链”所处的生命周期阶段大不相同,两者约有5年左右的差距。

主要差异在哪?
大数据通常用来描述数据集足够大,足够复杂,以致很难用传统的方式来处理。而区块链能承载的信息数据是有限的,离“大数据”标准还差得很远。区块链与大数据有几个显著差异:
  • 结构化vs非结构化:区块链是结构定义严谨的块,通过指针组成的链,典型的结构化数据,而大数据需要处理的更多的是非结构化数据;
  • 独立vs整合:区块链系统为保证安全性,信息是相对独立的,而大数据着重的是信息的整合分析;
  • 直接vs间接:区块链系统本身就是一个数据库,而大数据指的是对数据的深度分析和挖掘,是一种间接的数据;
  • 数学vs数据:区块链试图用数学说话,区块链主张“代码即法律”,而大数据试图用数据说话;
  • 匿名vs个性:区块链是匿名的(公开账本,匿名拥有者,相对于传统金融机构的公开账号,账本保密),而大数据有意的是个性化;
差异能否调和?
对一个分布式系统来说,存在CAP定理(CAP theorem)又被称作布鲁尔定理(Brewer's theorem),它指出一个分布式系统不可能同时满足以下三点:
  • 一致性(Consistence):在分布式系统中的所有数据备份,在同一时刻是否同样的值。
  • 可用性(Availability):在集群中一部分节点故障后,集群整体是否还能响应客户端的读写请求。
  • 分区容忍性(Partition tolerance):集群中的某些节点在无法联系后,集群整体是否还能继续进行服务。

由于当前的网络硬件肯定会出现延迟丢包等问题,所以分区容忍性是我们必须需要实现的。换句话说,CAP定理表明我们必须在一致性(C)和可用性(A)之间进行权衡。

具体到区块链和大数据来说,大数据是以牺牲一致性(C)来换取可用性(A)和分区容忍性(P)的,而区块链却优先保证了一致性(C)。

可相互借鉴之处
通过CAP定理,我们知道区块链和大数据的诸多特性无法两全,需要针对具体场景,在多样化的取舍方案下设计出多样化的系统。

区块链+大数据:在区块链中使用大数据技术
区块链是一种不可篡改的、全历史的分布式数据库存储技术,巨大的区块链数据集合包含着每一笔交易的全部历史,随着区块链技术的应用迅速发展,数据规模会越来越大,不同业务场景区块链的数据融合会进一步扩大数据规模和丰富性。

区块链以其可信任性、安全性和不可篡改性,让更多数据被解放出来,推进数据的海量增长。区块链的可追溯性使得数据从采集、交易、流通,以及计算分析的每一步记录都可以留存在区块链上,使得数据的质量获得前所未有的强信任背书,也保证了数据分析结果的正确性和数据挖掘的效果。

区块链能够进一步规范数据的使用,精细化授权范围。脱敏后的数据交易流通,则有利于突破信息孤岛,建立数据横向流通机制,形成“社会化大数据”。基于区块链的价值转移网络,逐步推动形成基于全球化的数据交易场景。

区块链提供的是账本的完整性,数据统计分析的能力较弱。大数据则具备海量数据存储技术和灵活高效的分析技术,极大提升区块链数据的价值和使用空间。

大数据+区块链:在大数据中使用区块链技术
大数据的技术生态百花齐放,没有哪个软件能解决所有的问题,能解决问题也是在一个范围内,即使是Spark、Flink等。在强调透明性、安全性的场景下,区块链有其用武之地。在大数据的系统上使用区块链技术,可以使得数据不能被随意添加、修改和删除,当然其时间和数据量级是有限度的。

以时间、数据量为坐标轴,列出了目前大数据引擎大致擅长处理数据的范围,区块链可在其中成为一种很好的补充

比如,对于存档的历史数据,因为它们是不能被修改的,我们可以对大数据作Hash处理,并加上时间戳,存在区块链之上。在未来的某一时刻,当我们需要验证原始数据地真实性时,可以对对应的数据做同样的Hash处理,如果得出的答案是相同的,则说明数据是没有被篡改过的。或者,只对汇总数据和结果做处理,这样,只需要处理增量数据处理,那么应对的数据量级和吞吐量级可能是今天的区块链或改善过的系统可以处理的。

通过把大数据与区块链相结合,能让区块链中的数据更有价值,也能让大数据的预测分析落实为行动,它们都将是数字经济时代的基石。
  • 大小: 381.1 KB
  • 大小: 45.4 KB
  • 大小: 61.1 KB
来自: 网络大数据
0
0
评论 共 0 条 请登录后发表评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

  • 大数据与区块链:相互关系与区别

    综上所述,大数据和区块链在数据类型、数据处理方式和数据隐私性等方面存在一些区别,但它们之间也存在着紧密的关系。...尽管存在这些区别,大数据和区块链之间也存在着紧密的关系,它们可以相互促进和增强彼此的应用。

  • 大数据与区块链的联系与区别.pdf

    ⼤数据和区块链两者之间有个共同的关键 词:分布式,代表了⼀种从技术权威垄断到去中⼼化的转变。 (去中⼼化:在⼀个分布有众多节点的系统中,每个节点都具有⾼度⾃治的特征。节点之间彼此可以⾃由连接,形成新的...

  • 大数据和区块链技术是什么关系?

    如今,大数据和区块链技术的关系日益密切了起来。可能有人要问了,大数据针对的是海量数据的处理,而区块链技术是一种实现内容共享和点对点交易的网络技术,两者有什么联系呢?确实两者只是不同场景情况下的不同数据...

  • 大数据和区块链区别和关系

    大数据,需要应对海量化和快增长的存储,这要求底层硬件架构和文件系统在性价比上要大大高于传统技术,能够弹性扩张存储容量。谷歌的GFS和Hadoop的HDFS奠定了大数据存储技术的基础。另外,大数据对存储技术提出的另...

  • 区块链和大数据结合方案

    区块链的发展离不开经济、社会等方面的帮助,在经济学方面,2015年10月,《经济学人》杂志封面用“信任的机器”和有可能改变经济运行的方式,表达了在区块链的条件下,信任可以不再依赖于血缘关系、社会关系和组织...

  • 大数据、区块链、人工智能、云计算和物联网的关系

    物联网是数据的收集基础...当然在这样一个数据爆炸的时代,我们所有人无异于裸奔,大数据下的安全隐患和保护被人们所重视,区块链应运而生,具有“不可伪造”“全程留痕”“可以追溯”“公开透明”“集体维护”等特征,

  • 大数据与区块链的联系与区别

    大数据和区块链两者之间有个共同的关键词:分布式,代表了一种从技术权威垄断到去中心化的转变。  (去中心化:在一个分布有众多节点的系统中,每个节点都具有高度自治的特征。节点之间彼此可以自由连接,形成新的...

  • 区块链、人工智能、大数据、物联网和云计算

    人工智能(Artificial Intelligence,AI)是一种模拟人类智能的技术,它可以让计算机执行复杂的任务,例如图像识别、自然语言...通过对大数据进行分析和挖掘,可以发现隐藏的关联和趋势,并提高决策的准确性和效率。

  • 大数据与区块链

    好处是买家和卖家可直接交易,不需要任何中介。人人都有备份,哪怕你这份丢失了,也不受影响。 备注: 互联网应用已渗透到金融服务、物联网、供应链管理、数字资产交易、电子商务等多个领域。 若将区块

  • 信息系统项目管理(四)物联网、云计算、大数据和区块链技术介绍

    新一代信息技术产业包括:大数据、云计算、互联网+、物联网、智慧城市等是新一代信息技术与信息资源充分利用的全新也态,是信息化发展的主要趋势,也是信息系统集成行业今后面临的主要业务范畴。 一、物联网(The ...

  • 大数据跟区块链之间相互促进关系体现在哪?

    大数据、人工智能和区块链这几个词都是当下非常流行的科技... 大数据跟区块链之间有哪些相互促进的作用,我们可以分为几点来理解: 一、数据安全:区块链让数据真正“放心”流动起来 区块链以其可信任性、安全性...

  • 大数据与区块链的组合:威力无穷!

    通过将大数据的处理能力与区块链的安全性和可信性相结合,可以构建安全、可信的数据交换平台,如数据市场和医疗数据共享。同时,通过智能合约,医疗研究机构可以请求访问特定类型的医疗数据,并为数据的所有者提供...

  • 大数据与区块链:一对桴鼓相应的搭档

    大数据能够对海量信息资产通过高效的处理模式来进行捕捉、管理和处理,而区块链本身作为分布式计算的一种,还有去中心化以及不可篡改等特性,两者之间,似乎天然就有合作的可能性。  大数据虽然能够收集海量数据并...

  • 浅谈数字经济新技术间的关系——云计算、物联网、大数据、区块链、人工智能、元宇宙

    3、打造以区块链为媒介的技术体系 用人体来比喻:我们人类的各个器官感知世间万物的一切(大数据),经过人体经络(物联网)汇总到大脑,人类的大脑经过记忆、分析和总结(云计算),大脑将分析的结果进行总结形成...

  • 区块链和人工智能、大数据与物联网是什么关系?

    区块链技术和应用的发展需要云计算、大数据、物联网等新一代信息技术作为基础设施支撑,同时区块链技术和应用发展对推动新一代信息技术产业发展具有重要的促进作用。 (3)区块链与大数据 区块链是底层技术,大数据则...

  • 区块链金融理论测试题-----「大数据、区块链时代」

    答案解析:哈希函数在区块链当中起着至关重要的作用,它的做法是将繁杂的交易信息加密压缩成固定字节的简单哈希值,并成为该区块的标识,保证区块链中交易信息不被篡改。 3、数据被个别公司垄断会导致什么现象?.

  • 解读大数据与区块链的关系

    区块链系统本身就是一个数据库,而大数据指的是对数据的深度分析和挖掘,是一种间接的数据; 数学vs数据: 区块链试图用数学说话,区块链主张“代码即法律”,而大数据试图用数据说话; 匿名vs个性: ...

  • 大华无插件播放项目111

    大华无插件播放项目111

  • Oracle 19c 数据库备份恢复与导入导出实战指南

    内容概要:本文详细介绍了Oracle 19c数据库的备份恢复和导入导出操作。首先概述了基本命令,然后分别讲述了三种工作方式(交互式、命令行、参数文件)和三种模式(表、用户、全库)。接着介绍了高级选项,如分割成多个文件、增量导出/导入、以SYSDBA进行导出/导入、表空间传输等。最后讨论了优化技巧,包括加快导出和导入速度的方法。还解决了一些常见问题,如字符集问题和版本问题。 适用人群:Oracle数据库管理员和相关技术人员。 使用场景及目标:适合在日常数据库管理和维护中进行数据备份、恢复、导入和导出操作,提高数据安全性和管理效率。 其他说明:文章内容丰富,涉及多种实用技巧,适用于不同场景下的具体操作,有助于提升工作效率。

Global site tag (gtag.js) - Google Analytics