`
weitao1026
  • 浏览: 1048525 次
  • 性别: Icon_minigender_1
  • 来自: 上海
社区版块
存档分类
最新评论

大数据的发展

阅读更多

近几年,大数据这个概念已经被炒的甚嚣尘上。似乎大数据是一个无比高深的话题,碰巧,笔者在大学的研究方向就是和大数据相关的人工智能,而且也有很多朋友是在大型视频网站团购网站等互联网公司从事大数据相关工作,所以在这里就给大家介绍一下大数据的概念。当然,我们不会去解释大数据相关技术(CF协同滤波,MapReduce,DeepLearning等等),毕竟读者们不太可能会去自己编写大数据的程序。我们只从应用角度,给大家讲讲大数据的概念以及应用方式。希望大家看完这一章后,可以知道,在自己的领域,可以怎样用大数据的理念和方法,来提高效率。

大数据是什么?

虽然大数据听着是一个很高科技的词儿,其实它早就渗透到你我的生活中,比如,你每天在网上看视频时,视频网站推荐给你的视频就是基于大数据。当你在淘宝购物时,网页边栏推荐给你的也是基于大数据。要说明白大数据,首先我们要从一个大家都熟悉的简单概念说起,那就是:数据分析。“数据分析”是一个现代词汇,但是利用数据分析的结果来指导行动,却是古往今来一直都有的一个理念。网上有一段子:

林彪带兵打仗的时候,有个特别的习惯,那就是每次战斗结束后,都要用小本子记下所缴获的武器种类、数量等数据,乐此不疲。大家对此都不以为意。

有一天,在又一次遭遇战后,士兵在给他念缴获的武器数量时,他突然叫停,然后兴奋地指出,这次遭遇战很可能遇到的是敌人的指挥部队。原因是,这次缴获的小枪与大枪的比例高于普通的战斗,小车与大车的比例以及军官与士兵的比例也都高于平均,因此他得到了这个结论。

在这个数据的指导下,部队一鼓作气,追击逃脱的部队,成功的把敌人的指挥官抓获。

如果这个故事属实,那么这个可能是笔者知道的最早的基于严谨的数据分析来指导行为的例子。进入现代以后,人们对数据的分析应用就更加频繁。企业在做战略规划的时候要进行数据分析,公司在做营销推广方案时也要做数据分析。那么,“大数据”和前面说的“数据分析”之间有什么关系和区别呢?

从粗犷到细致

我们知道,数据分析需要有几个步骤:采集、统计、分析,而数据的总量直接和采集相关。在互联网兴起之前,人们采集数据的方式无外乎是人为观察和记录,当然,后期也有利用传感器来辅助记录。但是,互联网技术近几年的发展,却使得数据的采集水平记录达到一个史无前例的高度。在互联网时代之前,人们只能统计到一些基础的用户信息:年龄,住址,电话,婚姻状况等。到了互联网时代,我们可以收集到一个用户手机上装有什么应用,喜欢上什么网站,购物记录,在某个页面上停留了多久,鼠标在页面什么位置点击。而移动互联网时代的来临,使得更多动态数据可以被采集,比如用户的 睡眠时间、运动量、位置、在商场内的移动路线、打车次数、心率等等信息。这些数据最终汇聚在一起,形成了一个非常庞大的数据库。

以林彪带兵打仗为例,假设他的小本子有500页,每页上记满1000个字,正反两面都写,那么总的数据量也就约=2M。这个和互联网时代动辄上T上P的数据量比,基本上是小巫见大巫。(1P约=1000T,1T约=1000G,1G约=1000M,一个大型视频网站1秒钟就能产生几百M的用户数据)。这些数据海量数据的集中,就形成了“大数据”的最重要的一个特征:多维度的、细致的、海量的数据。

注:“海量”并不是大数据的必要条件,它更多是因为数据的维度多,粒度细,而导致的数据量的增大。

从统计到预测

得益于先进的机器学习算法,使得我们对大数据的使用,从统计一个数据结果,到利用结果和特性来推断一个人可能进行的行为。

《BigData》一书中提到一个很有意思的例子:一个父亲突然收到一个百货公司发给他的关于婴儿用品的传单,这个父亲非常愤怒,因为他的女儿才只有16岁?但是,过了几天后,他却上门道歉,因为,经过和他女儿细聊,发现他的女儿确实怀孕了。

那么,百货公司是如何预测一个人的行为呢?像上文所说,通过互联网,我们可以采集到大量用户的种种信息,包括固定的属性,和一些已有的行为;比如最近买了什么。经过对采集到的数据分析,发现购买婴儿用品的人有如下特征:年龄范围在14~40、买婴儿用品前几个月购买大量酸味食品,等等等等。那么,得到这个结论后,再来一个有类似特点的顾客,百货公司就可以猜测,她可能在未来一段时期内,对婴儿用品感兴趣。于是便向其发送对应的广告。

再比如,智能推荐广告:视频网站经过统计发现,点击了啤酒广告的人,有如下特点:看体育类战争类视频较多,看韩剧较少。那么很显然,下次再有啤酒广告时,把它们投给这样的用户就更有效一些。

注:上面举的这两个例子,只是为了形象的说明大数据预测是怎样运作的。在实际应用中,大数据分析引擎要分析的属性比这个细致的多,使用到的算法也比这个复杂的多,而且得到的很多结论,往往是没有直观的物理意义的一个组合概率模型。

从慢到快

上述两个特点基本上已经把大数据的形态给刻画了出来,但是,要到实际中应用,还需要再加一个特点:速度够快

数据收集起来之后,要使用的话,就离不开计算。当数据的量级在几个M时,可能一个计算器就能满足统计需求。当数据量达到几个G时,就必须使用一台计算机来计算。而当有几个T几个P的数据摆在你面前时,一台计算机恐怕已经难以胜任,很幸运的是,我们有了云计算的概念。也就是说,将一个计算任务,分配给”云端“的好多台计算机同时进行处理,从而达到对处理时间的苛刻要求。

云计算技术的发展,使得在大尺度上计算海量数据成为可能。如果没有足够快的处理速度,我们收集起来的用户消费数据,算了半年才出一个结果,那估计用户的消费习惯、社会时尚已经是时过境迁。除了处理速度快,还有一个因素也要快,那就是信息采集反馈的速度。比如,用户电话打进来的瞬间,我们是否立刻收集到该用户相关信息,然后给出用户可能的问题预测?产品投放出去后,我们是否可以很快收集到销量信息以及对应的用户数据?这一切,都决定了我们是否可以有效地将大数据的统计结果应用到商业活动中,最终使大数据从理论的圣坛上走下来,产生了实际的商业价值。综上所述,大数据并不是玄乎其玄的东西,它只是在几种现代技术的推动下,将数据分析做到了极致的结果。

大数据的应用场景

大数据诞生以来,在各个领域都有非常多的应用,比如改善航线、预测污染、优化医疗等等。这里,我们把应用方式分成两大类,分别介绍一下。

精准的广告投放

我们知道广告界的一个难题“如何找到对的那一半人”。而大数据正是可以用来更加精准的定位广告的目标用户。广告投放包括第三方广告渠道和自有广告渠道两种:

第三方广告渠道由于是第三方操作的,所以对于广告主来说只能去选择合适的渠道种类。第三方渠道总体上可以分为两大类:互联网广告渠道(视频网站、门户网站、广告联盟等)和非互联网广告渠道(户外广告、楼宇广告、电视广告等)。目前,互联网广告已经在大数据精准投放上走的比较远,比如前面说的视频网站根据用户点播行为,来投放合适的广告类型。所以,在这样的渠道上投放广告时,只需要广告主能和渠道方合作定义好自己的用户群,便可以将广告投放的比较精准。

非互联网广告渠道,因为没有特别有效的用户细分手段(广告只能投放到人群,而非个人),投放形式本身就限制了其精准的效果。对此,未来的一个出路就是,各种路牌广能采集到附近用户的信息,来动态调整广告内容。

比如,每个广告牌都有一个iBeacon设备,会和打开iBeacon连接的手机产生互动,根据手机信息,反查到用户的性别,从而决定显示什么广告。

而对于自有广告渠道来说,我们可以操作的空间就比较大。拿短息渠道为例,很多公司都会通过手机短信,给用户发送最新的促销信息,但是,以往这种信息通常是全量发送,或者是根据一定的可视化的分类(例如,信用卡的消费额度)来分类发送促销信息。而我们有了大数据的武器后,就可以对用户群进行进一步细分,甚至是1对1的发送。比如,信用卡公司可以根据用户的刷卡的频次、场所、购物内容、还款的及时性、消费时段等等来作为分析因素,来预测用户对什么样的商品感兴趣,从而发送相应的商品广告。再比如,化妆品公司,可以根据用户的年龄、工作内容、作息习惯、娱乐场所、季节、婚育状况、衣着习惯、朋友圈话题等等,来预测她可能更关心什么样的皮肤护理问题,从而推荐对应的化妆品门类。通过对多维度、细致的信息分析,使得广告推送更有针对性

个性化的用户服务定制

个性化服务要解决的问题是,不同用户服务内容和定价的个性化。以我们熟知的车险为例,目前的定价方式,只是简单的根据用户的年龄、驾龄、婚姻状况、车价和以往的车险理赔记录等显式的属性来进行区分,而在大数据时代,则可以把这种区分做到极致的个性化。比如,我们可以统计用户的驾驶习惯(驾驶时间,单次驾驶时长)、驾驶环境(常去路线的交通状况、总体事故率、季节天气)、身体状况(生病频率等),来更加针对性的对用户的理赔概率进行估计,从而得到更加合理的投保额度。再比如,对于培训机构来说,可以分析特定属性的用户(年龄、性别、各种成绩等),对特定类型的授课方式或者授课内容的成绩反应,来有针对性的进行课业的搭配,从而使每个用户的成绩达到最大化。同样,医学领域,也可以利用大数据来进行个性化疾病预防和治疗。智能穿戴设备为这一切打下了坚实的基础:

  • 手环,监测你的运动量、心跳变化
  • 智能血压仪,每天监测血压
  • 体重秤,每天体重变化
  • 空气净化器,监测环境的污染情况
  • 上网习惯,检测你的作息时间
  • 订餐记录,检测你的饮食情况

如果以后有了更方便的血液检测手段,每天能获得血液检测记录,那将是更有效的数据

这些数据分散开的话,最多只会影响对人们的生活习惯,比如,体重重了,要少吃多运动。但是一旦数据全都被打通,结合大数据分析技术,就可以预测出每个人的疾病发病概率。对每个人治疗时,也可以在药物和用量上变得更加有针对性。

机遇与挑战

大数据应用在国外已经兴起很长时间,但是在国内,却是刚刚起步阶段。一方面是国内对数据收集的管控比较严,导致数据基础设施没有跟上。而更重要的,还是人们对大数据的理念还没有完全吃透,大部分大数据应用的思想,只为专业的大数据工程师所掌握。而就在我们还没有准备迎接传统互联网大数据的潮流时,近几年,移动互联网有了势如破竹的发展。大部分公司,移动端业务,都已经超过了PC网站,这给大数据带来了新的机遇与挑战:

  1. 更丰富即时的信息
  2. 更快的处理速度要求
分享到:
评论

相关推荐

    中国大数据发展调查报告(2017年)

    中国大数据发展调查报告(2017年)中国大数据发展调查报告(2017年)

    2021重点城市大数据发展指数报告.pdf

    报告标题“2021重点城市大数据发展指数报告”表明,这份文件是一份对我国部分重点城市大数据发展状况的年度评估。此类报告通常由权威的研究机构编写,并依托于详实的数据和科学的分析方法,旨在对大数据发展情况进行...

    中国大数据发展报告(2017).rar

    本报告以调查数据为基础,结合行业专家的访谈,力争详实客 观的反映中国大数据发展现状,为政府和企业了解中国大数据发展状况和制定相关决策提供参考,也为广大关注大数据的从业人员、专家学者和研究机构提供真实...

    贵州省大数据发展条例

    《贵州省大数据发展条例》的核心内容围绕着如何利用大数据技术推动该地区的经济、社会治理、政府服务管理和民生服务等多方面的提升与发展。以下是对该文件中知识点的详细介绍。 1. 大数据的定义及特点 贵州省大数据...

    《促进大数据发展行动纲要》(国发[2015]50号).pdf

    《促进大数据发展行动纲要》(国发[2015]50号)政策文件信息

    2018全球大数据发展分析报告-天府大数据研究院-201905.pdf

    ### 2018全球大数据发展分析报告关键知识点解析 #### 一、报告背景与目的 - **背景**: 随着信息技术的迅速发展,大数据已成为推动经济社会变革的重要力量。本报告由天府大数据国际战略与技术研究院联合多家权威机构...

    中国汽车与保险大数据发展分析报告.pdf

    中国汽车与保险大数据发展分析报告.pdf

    《2020年大数据发展趋势预测报告》.pdf

    中国大数据技术大会发布的《2020年大数据发展趋势预测报告》全面梳理了该年度大数据技术的十大发展趋势,这些趋势不仅展现了大数据领域未来发展的方向,也反映了人工智能、数据安全、边缘计算等诸多技术与大数据的...

    中国大数据发展调查报告(2017)

    中国大数据发展调查报告(2017)详细解读了中国大数据市场的现状、发展趋势、技术应用、资源情况、平台建设以及政策和资源需求等多个维度。下面将对报告中提到的各个知识点进行详细解析。 1. 调查背景与方法:报告...

    2019年大数据发展趋势预测报告.pdf

    机器学习算法的优化和应用创新将成为推动大数据发展的关键力量。 第三,数据安全和隐私保护的关注度持续增加。随着大量个人和企业数据的累积,数据泄露和隐私侵犯的风险日益加剧。如何在保障数据开放和共享的同时,...

    大数据发展脉络.pptx

    大数据发展脉络.pptx

    重点城市大数据发展指数报告.pdf

    重点城市大数据发展指数报告

    《促进大数据发展行动纲要》

    《促进大数据发展行动纲要》(国发[2015]50号)

    中国电力大数据发展白皮书.pdf

    《中国电力大数据发展白皮书》是我国首个行业大数据白皮书,首次提出了电力大数据的定义和特征。电力信息化专委会作为我国唯一的电力行业信息化专业协会,充分听取了行业内外专家意见,完善了白皮书编制思路,...

    2018中国大数据发展调查报告

    为进一步掌握中国大数据发展和应用情况,中国信息通信研究院开展了2017—2018 年度中国 大数据发展状况的调查。本次活动采用现场访问、电话访谈和在线调查相结合的方式,对中国大数据产业 规模、应用现状、数据资源...

    中国电力大数据发展白皮书

    《中国电力大数据发展白皮书》(2013年)由中国电机工程学会信息化专委会编写,主要讲述了大数据技术在电力工业中的应用前景。

    中国重点城市大数据发展指数报告2021

    《中国重点城市大数据发展指数报告2021》是一份由权威机构——中国电子技术标准化研究院、中科大智慧城市研究院和CIO时代研究院联合发布的报告,旨在深入剖析中国主要城市在大数据领域的进展和挑战。报告涵盖了...

    中国大数据发展趋势预测及解读

    中国大数据发展趋势及预测解读,选自《中国计算机协会通讯》

    2021年重点城市大数据发展指数报告.pdf

    2021年重点城市大数据发展指数报告

    中国信通院:2018年中国大数据发展调查报告

    国家政策不断发布,推动了政府和企业大数据发展;建设模式不断成熟,奠定了企业大数据基础;行业应用不断深入,提升了大数据价值显现。中国信息通信研究院作为国家级行业智库,伴随行业发展,汇集行业领军企业,连续...

Global site tag (gtag.js) - Google Analytics