“大数据”概念于20世纪90年代被提出,最初只是对一些在一定时间内无法用传统方法进行抓取、管理和处理的数据的统称。随着时间的推移和科技的发展以及物联网、移动互联网、SNS的兴起,每年产生的数据量都以几何级数增长,《IDC Digital Universe in 2020》报告称全球产生的数据将在2020年达到40ZB(1ZB=10亿TB=100万PB)。在这急剧增长的数据面前,各种相关概念、技术层出不穷,一直不停地吸引大家的眼球。同时,大数据的内涵也发生了重大变化。让我们一起来思考一下:什么是大数据?能用它来解决什么问题?该如何应用大数据技术?目前有哪些难点?大数据的未来是什么?
什么是大数据?
业界通常用Volume、Variety、Value和Velocity(简称为“4V”,即数据体量巨大、数据类型繁多、价值密度低和处理速度快)四个特征来显著区分大数据与传统数据。目前业界可能更关注的是Volume(容量)和Velocity(速度),而忽略了数据价值以及数据体系建设,这种情况充其量只能称之为海量数据,引用淘宝网商业智能部资深总监车品觉的话来说就是“坐在数据金矿上啃馒头”。在传统的4V基础上,大数据还应该包含数据交换、互联、质量、安全等数据体系建设以及可以建立上层数据应用的整个生态圈。
大数据能解决什么问题?
大数据现象在物理学、生物学、环境生态学、自动控制等科学领域和军事、通信、金融等行业的存在已有些时日。从本质上来说,大数据主要解决的是海量数据存储、计算、挖掘、展现的问题,基于此之上可以诞生一系列应用或商业模式。
在目前阶段,解决的问题主要分为3类。
- 拓展传统的商业智能(BI)领域。以前针对大数据量的统计、关联分析、趋势预测由抽样变成全量分析,将数据回流到各种报表。
- 业务流程改进。对各种数据进行聚合分析,用来作为业务流程改进和考核的依据。
- 数据产品和商业应用。通过对已有数据或数据处理能力进行服务化或产品化包装,形成数据产品或数据服务。
该如何应用大数据技术?
大数据技术是一个整体,没有统一的解决方案,相关技术涉及到数据的传输、存储、计算、挖掘、展现、开发者平台6个部分。
- 作为数据处理的入口,数据传输和同步一般会采用基于时间线的实时同步和批量同步两种方案。基于时间线的实时同步,典型的系统有LinkedIn的Databus+Kafaka组合、淘宝开源的TimeTunnel;批量同步,典型的系统有Facebook开源的Scribe、Cloudera开源的Flume、Hadoop社区开源的Chukwa。
- 在数据量超过单机承载能力时,数据存储在扩展性和可用性上会面临较大挑战,一般会采用分布式存储。如基于内核层的Ceph、GlusterFS,用户层的有HDFS、GFS,业务层的HBase(列存储数据库)、MongoDB(文档数据库)、Cassandra(K/V型数据库)、Neo4j(图形数据库)等。
- 大数据技术的核心是基于存储的计算。计算一般分为离线计算、在线计算(流式计算、即时计算)。离线计算经过多年的积累和沉淀,已经成为数据处理的首选平台,承载了绝大多数的数据处理任务,典型的有Hadoop以及之上的Hive/Pig、阿里的ODPS;在线计算根据业务特征分为针对实时数据源进行固定规则计算的流式计算系统和针对非实时数据源进行灵活运算(无法预算)的即时计算系统。典型的流式计算系统有Storm,典型的即时计算系统有阿里的Garuda。
- 为了建立数据关系及数据模型,需要进行数据挖掘。为了进行海量数据的数据挖掘,一般会建立一个运行在分布式计算集群上的公用算法平台来进行各种数据处理,典型系统为基于Hadoop的Mahout、RHadoop。
- 为了展现海量数据结果的多样性、多角度、多层次,需要用到数据可视化相关技术,典型的系统是Facebook Insights。
- 数据处理涉及到的环节错综复杂、盘根错节,如何让大家易使用、保障所有系统的稳定运行,需要有一个平台来帮助开发者简化或完成数据处理的各个环节,例如提供数据处理、调度工作流系统、查看元数据、提供数据开发IDE等,典型的系统是Precog。
目前有哪些难点?
除了应对海量增长的数据带来的存储、计算、挖掘算法的技术难点之外(技术难点细节相信大家基本上都能在网上找到相应资料),其实还包括数据本身带来的业务难点。
在业务规模不大时,可以利用开源技术搭建起一整套数据处理系统。而随着业务增长,就需要根据业务特色按需修改或开发一些满足特定领域需求的系统。
在一些公司,业务急速增长和扩张,业务难点和技术难点同样突出,例如数据源源不断地产生,数据的质量、安全、成本该如何保障呢?前端业务库的元数据变更会给后端的数据处理造成什么后果?这些问题处理得不好很容易功亏一篑,让数据成为一堆大垃圾和高成本的企业负担。
针对业务难点,在保证数据质量方面,需要从数据源头进行规范,建立起一整套逻辑结构元数据和业务元数据系统来进行数据的约束、变更通知和业务基线保障(基线指根据业务方需要的时间来倒推数据生产完成时间)。基于此来进行数据的血缘分析(关联关系)、元数据查询、数据生产时间等功能;同时需要对数据的波动、变化做多样化的监控和报警规则管理,确保数据是及时、准确、可用的。
企业所拥有的数据可能成为获得竞争优势的关键,企业的数据和基础设施的安全也比以往任何时候都重要。因此从业务库到数据仓库的整个过程都需要考虑安全,包括数据传输、计算过程都需要进行认证、鉴权。鉴权的角度需要站在数据本身的角度去考虑。
数据在源源不断地增长,数据直接拥有成本也在随之提高,一些公司用来处理数据的服务器台数都要以万来计。因此,需要从大数据处理的全局角度来考虑如何从存储、计算上尽可能地降低成本,让模式可以持续。例如对数据采用冷热分离(冷数据存储到磁带上等)、按业务特征进行分层压缩(按列存储、存储数据差异等)、计算资源细粒度错峰化(资源进行细粒度分配或预估、按照业务时间进行波峰与波谷整合)、数据生命周期管理(比如进行过期垃圾数据清除)等手段来节省成本。
如何衡量数据价值?
我们有理由相信,不同数据中蕴含的价值是有差异的。如何衡量数据的价值可以从数据末端来进行考虑,可以如前面提到的那样建立一套元数据中心来管理整个企业的数据流转和关联。基于此可以分析每份结果表的引用关系链,采用业务价值/投资回报率(ROI)模式来衡量源头数据的价值,优先保障这些高价值源头表的数据质量。
大数据的未来?
大数据正在改变一些行业的运营发展规则,也诞生了一批数据服务公司,未来的大数据将会真真切切地落地在我们周围,很多企业不再需要建立一套如此复杂的数据处理系统,数据和计算能力都会变成一种资源按需使用。基于此,我们可以将大数据的未来分为三类。
第一类专注于做数据处理平台,也就是DaaS(Data as a Service),典型的公司有Precog。Precog公司提供海量数据存储和分析服务,该服务负责处理数据的抽取、转换、集成分析和可视化等过程,以及服务运行所基于的基础架构,提供一整套IDE和Quirrel查询分析语言。
第二类为利用自有数据进行深度整合产生的新业务和新的商业模式,这类公司本身就具有海量数据,典型的如Google的广告/搜索/地图/Glass/无人驾驶汽车、Facebook的Graph search、阿里的金融业务。
第三类为提供数据、计算以及数据市场三种服务的公司。这类公司既有海量数据,同时又拥有多年的数据处理技术积累,它们会将拥有的海量数据进行深度清洗、整合与关联,并建立一整套包括数据传输、存储、计算、挖掘、展现的技术服务,在此基础上会提供一个统一的数据开发平台完成用户认证、数据鉴权、工作流、监控告警、数据管理(元数据管理、数据质量管理、数据生命周期管理)、数据开发等工作。基于此提供一整套数据交换服务和App Engine。在此平台上,可以完成数据处理、交换以及开发数据应用App等功能。
总结
大数据相关的概念和技术会继续更广泛地冲击技术人员的眼球,我们需要做的是抓住问题的本质,尽可能理性地分析自己对数据的核心需求是什么、用它来解决什么问题、解决这些问题是不是一定要用复杂的分布式数据处理系统、所学的技术处于大数据技术的哪一层。
作者占超群,花名离哲,阿里巴巴集团数据平台与产品部数据仓库架构师,负责实时计算系统研发,低调的华丽践行者。拥有多年电信行业数据分析类项目开发管理经验,专注于实时计算/实时交互/数据服务化,爱好与分布式数据处理相关的技术。
分享到:
相关推荐
随着大数据时代的到来,各行各业都在积极利用这一新兴技术来提升自身的发展水平。在高等教育领域,大数据技术同样发挥着重要作用,尤其在思政教育和计算机教育中展现出巨大的应用潜力。本文将探讨大数据在高校思政与...
随着信息技术的快速发展,大数据已成为推动各行各业转型的重要驱动力。特别是在人力资源管理领域,大数据的应用不仅提升了管理效率,还促进了管理模式的根本变革。本文旨在探讨大数据如何重塑人力资源管理,并提出...
大数据在当今信息化时代已经成为了推动各行各业发展的重要引擎,而在高校教育领域,大数据的应用更是日益凸显其价值。在高校思想政治理论(以下简称“思政”)教育和计算机教育这两个看似不相关的学科中,大数据的...
思 维的转变,将会在各行各业中爆发出更多的预测技术和工具,进而支撑预测工作的大力 发展。 大数据技术越完善,我们越能更快更全面的获得更多的有效数据,预测则越准确。 知识管理迫在眉睫 大数据的未来是数据分析...
随着全媒体时代的到来,信息技术的快速发展为各行各业带来了翻天覆地的变化。尤其是对于期刊编辑工作而言,大数据技术的应用已经成为提升工作效率和质量的重要手段。本文深入探讨了在这一背景下,期刊编辑如何构建...
随着信息技术的飞速发展,传统数据处理方式已无法满足信息数据化时代的需求,大数据技术因此应运而生,并广泛应用于各行各业。在高校思政教育中,大数据技术的渗透为教育工作带来了新的机遇,促使思政教育从传统模式...
《金柚网:行思致远,智慧教育的来路与去向》 智慧教育,作为信息化时代教育领域的重要组成部分,近年来受到了广泛的关注。金柚网作为行业内的领军企业,一直致力于推动教育科技的发展,引领智慧教育的未来趋势。这...
总的来说,云计算智能化演进的趋势已经明确,它将为各行各业带来深远的影响。云计算巨头们在智能化的道路上不断探索与实践,从提供简单存储和计算服务转变为提供全方面的智能化解决方案。在这一过程中,安全智能化、...
它结合了人工智能、大数据、云计算等技术,为乘客提供安全、舒适且便捷的驾驶体验。 - **智能座舱意义**:智能座舱能够提升行车安全,通过驾驶员监控系统监测驾驶员的状态,防止疲劳驾驶。同时,它增强了人机交互,...
通过物联网、大数据、人工智能等技术,企业可以实现更高效、灵活的生产模式,降低生产成本,提高产品质量。此外,报告还分析了定制化生产和按需制造的潜力,以及这些变革对汽车行业价值链的影响。 五、新能源与智能...
《知道你的客户所思所行》这份文档是针对公司企业营销人员的重要学习资料,它深入探讨了理解客户需求、洞察消费者行为的关键策略。在当今竞争激烈的市场环境中,了解客户的思考方式和行为模式对于制定有效的营销策略...
2、适用人群:主要针对计算机相关专业(如计科、信息安全、数据科学与大数据技术、人工智能、通信、物联网、数学、电子信息等)的同学或企业员工下载使用,具有较高的学习借鉴价值。 3、不仅适合小白学习实战练习,也...
通过定量、定性调研以及大数据研究,全面呈现这一年龄段年轻人的注意力分布模式及特征,并尝试探究注意力背后的深层次诉求,从而帮助各品类及品牌准确洞察这一年轻人群体的所思所想和行动偏好,为未来的营销实践提供...
在2019年世界互联网大会上,共发布了15项领先科技成果,这些成果涵盖了人工智能、5G、大数据、云计算等多个技术领域。这些成果不仅代表了全球互联网技术的最新进展,也为互联网行业未来的发展提供了新的思路和方向。...
在实际教学过程中,还采用了情景模拟教学法,以责任与诚信道德教育为切入点,深刻理解社会主义核心价值观,使得保密和诚信的意识内化于心、外化于行,实现了课程内容与思政元素的有机结合。 在教学设计和教学方法...
随着大数据时代的发展,数据中心的运维工作变得日益复杂,风险也随之增加。为了应对这些挑战,智慧堡垒机作为一种先进的运维管理工具,旨在提高数据中心的安全性和效率。 智慧堡垒机是运维管理的新方向,它通过智能...
"互联网+"战略的实施,旨在促进信息科技与各行各业的深度结合,激发经济增长新动力。 【物联网(Internet of Things, IoT)】 物联网的概念最早于1999年由美国麻省理工学院的Kevin Ashton教授提出。物联网是指通过...
2. **大数据与数据分析**:南京凯奥思数据技术有限公司、江苏西格数据科技有限公司等公司可能专注于大数据处理和分析,为各行业提供数据驱动的决策支持。 3. **人工智能(AI)**:AI智能算法在复杂设备气密性模拟检测...