`

大数据与传统数据

阅读更多

小编说:在这个人人都说大数据的时代,许多人对大数据的印象只是停留在仰望的阶段,其实大数据没人们说得那么神奇、玄乎或者是无所不能,今天我们就以传统数据作为比对,看看大数据究竟有什么特点让其处于时代的浪潮之巅。 
本文选自《从1开始——数据分析师成长之路》。

  大数据与传统数据相比的主要特点可以概括为:数据量“大”、数据类型“复杂”、数据价值“无限”。 
【图1】
  数据量大十分好理解,以前我们存储数据使用的单位是 KB,一个Excel表格也就几十到几百KB,现在我们经常说到GB甚至是TB乃至PB的数据量级,它们的数量关系如下所示。 
                       1MB=1024KB 
                       1GB=1024MB 
                       1TB=1024GB 
                       1PB=1024TB 
  更直观一点,1KB相当于512个汉字,1MB就相当于六本红楼梦的字数……而淘宝网在2015年3月每天大约能产生7TB的数据量,相当于4000万本红楼梦的数据量,而中国最大的图书馆中国国家图书馆的藏书量是3000万册。由此看来,我们的大数据着实是数据量巨大了。而只说能够产生如此大量数据的原因有哪些呢?我们不妨从数据获取的方式、数据传输的方式和数据存储的方式来探讨数据量大的这个问题。 
  数据获取方式的质变是大数据能够产生的核心要素。传统的数据获取方式多是以人工的方式获取数据,最大的特点是手动输入数据,曾有一段时间,超市是通过要求收银员键入用户特征来采集用户数据的,键盘的样子大体上会是如图3-3所示的造型。 
【图2】
  超市通过这样的方式来收集用户的数据,对收集的数据进行分析,来对用户画像与人群定位。试想在超市每天如此大的接待量情况下,收银员能否保证数据录入的准确性呢?与此同时,通过人工输入的方式每天能够采集多少数据呢?类似的这种键盘记录的方式还有许多人工录入数据的方式不再一一举例,传统记录数据的方式必定只能是小范围的,少量的和准确度欠佳的。而现在的数据获取方式大多是通过URL传输和API接口,大体上数据获取的方式有这样几类:爬虫抓取、用户留存、用户上传、数据交易和数据共享。 
【图3】
  自有数据与外部数据是数据获取的两个主要渠道。在自有数据中,我们可以通过一些爬虫软件有目的的定向爬取,比如爬取一批用户的微博关注数据,某汽车论坛的各型号汽车的报价等。用户留存多是用户使用了公司的产品或是业务,用户在使用产品或是业务中会留下一系列行为数据,这个构成了我们的数据库主体,通常的数据分析多基于用户留存的数据。用户上传数据诸如持证自拍照、通讯录、历史通话详单等需要用户主动授权提供的数据,这类数据往往是业务运作中的关键数据。相较于自有数据获取,外部数据的获取方式简单许多,绝大多数都是基于API接口的传输,也有少量的数据采用线下交易以表格或文件的形式线下传输。此类数据要么采用明码标价一条数据多少钱,或是进行数据共享,交易双方承诺数据共享,谋求共同发展。 
  至此,我们看到新时代的数据获取形式相较于传统数据获取的方式更加多元、更加高效。 
  同样的大数据与传统数据的传输方式也截然不同。传统数据要么以线下传统文件的方式,要么以邮件或是第三方软件进行传输,而随着API接口的成熟和普及就好像以前的手机充电接口,从千奇百怪、五花八门到今天的两大主要类别:iPhone系统与Android系统。API接口也随着时代的发展逐渐标准化、统一化,一个程序员只用两天的时间就能完成一个API接口开发,而API接口传输数据的效率更是能够达到毫秒级。 
  在数据存储方面,大数据的存储环境相较于传统数据的存储已经跃升了好几个数量级。犹记得十多年前软盘还非常高级,存储量达到20MB的软盘已然很贵,更别说U盘和移动硬盘了。 
  大数据与传统数据的另一个显著差异是数据类型的丰富。传统数据更注重于对象的描述,而大数据更倾向与对数据过程的记录。为了便于大家理解,下面简单的举个例子说明传统数据与大数据的记录方式有何区别。 
  传统数据的记录方式如下表。 
【图4】
  大数据的记录方式如下表。 
【图5】
  很明显地看到,传统数据和大数据记录数据的最大区别是大数据不仅对对象进行了描述,还加入了时间、地点等维度,这样的数据记录的是一个过程,从小明进入餐厅之前开始一直到小明离开餐厅,这整个过程都会被记录下来。而传统数据的记录方式更倾向于对结果的简单描述。 
  当然,大数据能记录的用户就餐数据远不局限于上述所列的字段,理想状况的大数据监控甚至会记录用户吃饭的方式、吃饭时的行为、吃饭时的面部表情等一系列数据,这些数据反映了用户对就餐环境的感受,对餐食口味的反应,进一步可以用来改进就餐环境、食物口味,给出点餐建议。 
  大数据与传统数据的核心差异在于其价值的不可估量。传统数据的价值体现在信息传递与表征,是对现象的描述与反馈,让人通过数据去了解数据。而大数据是对现象发生过程的全记录,通过数据不仅能够了解对象,还能分析对象,掌握对象运作的规律,挖掘对象内部的结构与特点,甚至能了解对象自己都不知道的信息。 
  诸如某百科对一个人的描述与概括,记录了这个人的身高、体重、出生年月、兴趣爱好、日常活动、亲朋好友等数据,这些算是传统数据,通过这些传统数据你能知道和认识这个人。如果用大数据的方式来记录一个人,那就可以详细到他几点起床、睡眠质量、身体状况、每个时间点在做什么事等一系列过程数据,通过这些过程数据我们不仅知道和认识这个人,还能知道他的习惯性格,甚至能挖掘出隐藏在生活习惯中的情绪与内心活动等信息。这些都是传统数据所无法体现的,也是大数据承载信息的丰富之处,在丰富的信息背后隐藏着巨大的价值,这些价值甚至能帮助人们达到“所思即所得”的境界。 
  大数据价值的特殊之处就在于它的可挖掘性,同样的一堆数据,不同的人能得到不同层次的东西。就好像同样见一个人,有些人只看他的外貌好不好看,有些人能从他的表情中读出心理活动,从眼神中看出阅历,从衣着打扮中读出品味,从鞋子上读出生活习惯。而这些深层次的非表象的内容需要技巧与实力去挖掘出来,这就是我们说的数据分析与数据挖掘。 
  本文选自《从1开始——数据分析师成长之路》,点此链接可在博文视点官网查看此书。 
                     图片描述

  想及时获得更多精彩文章,可在微信中搜索“博文视点”或者扫描下方二维码并关注。
                  图片描述

分享到:
评论

相关推荐

    大数据平台架构.doc

    巨杉软件SequoiaDB产品和案例介绍 v2》P12中提到,银行运用大数据资产进行业务分析,而P14则阐述了大数据与传统数据处理方式的差异,揭示了大数据处理模式的创新之处。 大数据平台的总体技术框架通常由五个层次构成...

    大数据与传统安全统计数据的比较及其应用展望.docx

    1. 数据整合与挖掘:传统安全统计数据往往分散在不同的系统和平台中,大数据技术通过数据集成和数据挖掘,可以将这些孤立的数据源进行有效的整合,揭示出隐藏在大量数据背后的深层次信息。例如,通过分析历史安全...

    大数据的发展及数据仓库的融合应用.docx

    下一代数据仓库架构将更侧重于大数据与传统数据仓库的融合,实现更高效的数据处理和分析。 大数据与数据仓库的结合并非简单的替代关系,而是互补互助。数据仓库擅长处理结构化数据,而大数据技术则擅长处理非结构化...

    大数据与互联网经济解读.pptx

    4 V 特征 种类多(Variety) 速度快(Velocity) 价值高(Value) 体量大(Volume) 大数据与传统数据相比,数据来源广、维度多、类型杂,各种机器仪表在自动产生数据的同时,人自身的生活行为也在不断创造数据;...

    大数据与数据采集大数据与数据采集

    大数据与数据采集 大数据与数据采集是当前IT行业中最热门的概念之一。大数据技术不仅指获得海量数据,更重要的是通过对海量数据的分析、整合来获得隐藏在数据背后的有价值的信息。在这个主题下,我们将探讨大数据的...

    全国大数据创新应用大赛数据

    在大数据时代,数据不再局限于传统的结构化数据,而是扩展到了非结构化和半结构化数据,如文本、图像、音频、视频等。处理大数据的关键技术有分布式计算框架(如Hadoop)、流式计算(如Apache Flink和Spark ...

    大数据面试录音01.zip

    1. **大数据概念**:面试可能会从基本概念入手,如大数据的4V特性(Volume、Velocity、Variety、Value),以及大数据与传统数据处理的区别。 2. **大数据处理框架**:Hadoop是大数据处理的基础,面试中可能会讨论...

    大数据技术基础(林子雨)

    他将解释如何通过这些特性来识别和处理大数据问题,并讨论大数据与传统数据管理的区别。 接着,书中会详细讲解大数据的采集、存储、处理和分析过程。在数据采集部分,读者将了解到网络日志、社交媒体、传感器数据等...

    1211工业与制造业大数据分论坛

    1. **大数据基础与概念**:介绍大数据的基本定义、特征(如五V:Volume、Velocity、Variety、Value、Veracity),以及大数据与传统数据的区别。 2. **大数据技术框架**:可能涵盖Hadoop、Spark等大数据处理平台,...

    大数据面试录音03.zip

    1. **大数据基础概念**:在面试中,面试官可能会询问大数据的基本定义,例如大数据的4V特性(Volume、Velocity、Variety、Value),以及大数据与传统数据的区别。 2. **大数据架构**:Hadoop是大数据处理的核心框架...

    从大数据到大数据技术谈大数据的判断标准(1).pdf

    通过对大数据与传统数据的比较,我们可以确定大数据的基本判断标准: 1. 数据量:大数据的规模远远超过传统的数据处理能力。 2. 数据类型:大数据包含各种类型的数据,如文本、图像、音频、视频等。 3. 处理速度:...

    大数据的介绍及案例分享37.pptx

    大数据与传统数据处理的最大区别在于其处理的对象和目标。传统数据处理主要关注结构化的、易于管理的数据,用于计算特定的业务指标或绩效。而大数据则更注重非结构化的、实时的、个人化的需求,旨在通过深入挖掘数据...

    大数据介绍与案例分享.pptx

    大数据与传统数据的区别主要体现在处理目标和方法上。传统数据处理通常关注的是单一指标,例如销售业绩,而大数据分析则更注重个体行为模式,如用户购买习惯或兴趣推荐。传统数据处理往往对一类人群进行批量服务,而...

    大数据背景下数据结构课程教学改革探索.pdf

    数据结构课程的传统教学内容通常涉及线性结构、树型结构以及图状结构等,而教学过程中存在的问题主要是内容繁多且难以理解,理论与实践脱节,以及教学方式与时代脱节等问题。 大数据的概念是指由数量巨大、结构复杂...

    深入理解大数据大数据处理与编程实践 完整版.pdf

    《深入理解大数据:大数据处理与编程实践》是一本全面探讨大数据技术、原理及其实战应用的书籍。在当今数字化时代,大数据已经成为了企业决策、科学研究、社会管理等领域的关键驱动力。这本书旨在帮助读者深入理解...

    大数据时代传统广告公司业务战略转型研究.pdf

    在大数据时代的背景下,传统广告公司的业务...文章强调,在大数据时代,数据管理与运营能力将成为广告公司的核心竞争力,传统广告公司必须利用大数据技术来提升其服务能力,以保持市场竞争力并实现业务的可持续发展。

    大数据的介绍与案例分享.docx

    大数据与传统数据仓库的主要区别在于,传统数据更侧重于群体的共性分析,而大数据则专注于个体的精准描绘,实现个性化服务。 大数据的深度分析,特别是个性化信息推荐,是其关键应用之一。例如,通过用户行为分析,...

    大数据理解.docx

    在这个过程中,数据的相关性和因果关系是区分大数据与传统数据应用的关键。 在大数据的语境下,数据的相关性不再局限于严格的因果关系。传统的数据分析通常追求明确的因果链,而大数据分析则侧重于发现数据间的统计...

    大数据与云数据管理.pptx

    大数据与云数据管理 大数据是指无法在可容忍的时间内用传统方法或工具对其进行抓取、管理和处理的数据集合。这些数据集非常巨大和复杂,以至于传统数据库管理工具处理起来面临很多问题。获取、存储、检索、共享、...

Global site tag (gtag.js) - Google Analytics