`
绿色滑板鞋
  • 浏览: 86867 次
  • 性别: Icon_minigender_1
社区版块
存档分类
最新评论

讲透大数据分析,我只需要一顿饭!

阅读更多

 【开胃菜】

十五年前,刚开始工作,从帝都回老家。

某长辈和蔼的问我:“工作了啊,做什么的?”

我踌躇半天答曰:“挨踢(IT)。”

长辈不假思索的来了一句:“哦,在中关村卖光盘啊!”

我......我.....我......(叔叔,你知道的太多了)

【副菜】

五年前,一夜之间,“大数据”一词开始红遍大江南北,再碰到别人问我时,我终于可以用一个网红词来轻松回答:“做大数据的!”

(感谢移动互联网的发展,感谢各大IT厂商的炒作,感谢国家的重视和规划,感谢所有TV和AV)

但就在上个周末,跟老妈电话聊家常时,她突然很好学地问了我一个很有深度的问题: “我知道你是做大数据的,但你们大数据到底都在做些什么?”

我一时词穷,不知道该从何说起。而类似的问题在知乎上也经常被一些即将面临就业、被“大数据”三个字圈粉、希望成为数据人的莘莘学子们所追问,因为人懒,基本上都没有好好回答过。

于是,为了给普及“大数据”贡献点绵薄之力,为了让边缘人士们对大数据多一点基本理解,也是为了能回答老妈的问题,我决定写篇文章(省点电话费)来介绍一下大数据以及数据人的日常工作。

大数据虽然已经是大家耳熟能详的热词,但数据领域里的许多术语和概念仍然会让人不明就里,所以我准备从“做饭”这个普通人应该都有基本了解,老妈更是熟稔于心的领域来切入。

【主菜】

正所谓“巧妇难为无米之炊”,做饭首先得有食材,大数据也一样,没有数据说什么都是扯淡,所以数据就是数据人的食材(只要有数据,我不用吃饭)。

做饭通常都要包括“买菜~洗菜~配菜~炒菜”这几个必需环节,无论你是开饭店还是家里一日三餐,做饭的规模大小会有不同,但流程却是一样的。而这几个环节其实正好对应了数据人的日常工作内容:买菜(数据采集)~洗菜(数据清洗)~配菜(数据建模)~炒菜(数据加工)

讲透大数据分析,我只需要一顿饭!

 

1、买菜(数据采集)

买菜,出门首先要考虑去哪里买,到地之后溜达溜达看看买什么食材,看中一个之后讨价、还价、交钱,肉、蛋、青菜,各种要买的食材都得按这个流程来一遍,买齐之后就走人回家了。

对于数据人来说,我们把这个买菜的过程叫做数据采集

菜市场就是我们通常所说的数据源

买菜的选择很多:超市(种类较少,质量上乘),农贸市场(种类较多,菜品一般),露天早市(啥都可能有,运气好还能吃到野味)。

数据源其实也一样,数据库(超市)中存储了结构化的业务数据、交易数据,传感器(农贸市场)产生大量半结构化日志数据、机器数据,网络上(早市)。

充斥着各种参差不齐的非结构化数据

到了菜市场我们得选菜,所有的食材我都想吃,但钱永远是不够的,所以我只能有选择性的买,这个过程叫数据调研,哪些数据是有用的,哪些数据用得起,得有个选。

溜达了一圈,确定要买猪肉、鸡蛋和黄瓜,得跟卖家挑肥拣瘦、讨价还价、敲定斤两,这个过程叫数据接口规范

费劲口舌,劳心劳力把菜买齐之后提菜回家,这个过程叫数据传输

根据买菜方式、习惯的的不一样,数据采集还可以细分出很多类型:

  • 肉类保质期长,一次买一周的量,可以叫全量采集。
  • 青菜讲究新鲜,每次只买当天的菜,可以叫增量采集。
  • 每天早上都得去买菜的,可以叫批量采集。
  • 卖家每次上了新菜都主动给你往家送的(土豪专用),可以叫流式采集。

2、洗菜(数据清洗)

洗菜就很好理解了,无论哪里来的食材,都多少存在卫生或者质量问题,买回来后都得洗干净、摘清楚才能吃,不然小则影响口感,大则损害健康。

数据也是一样,拿回来之后得检查一下,数据内容有没有缺斤少两,数据值里有没有烂菜叶,不然后面的报表、分析出来的结果就全是错误结论了,我们把这个检查、纠正数据本身错误的过程叫做数据清洗。

由于数字世界里各种数据源的多样性、复杂度远远高于现实生活里的菜市场,数据清洗流程需要面对和处理的问题也就远远多于洗菜,为了解决和防范数据产生、使用过程中出现的各方面问题,数据领域细分出了一个专门的研究方向叫数据治理,比如:

  • 为了了解各个菜市场的情况,我们需要记录每个菜市场、每个卖家的猪肉、鸡蛋、黄瓜等各种食材的大小、颜色、价格等特点,这个叫元数据管理。
  • 记录完之后发现每家的特点都不一样,完全没有可比性,于是我们决定对猪肉、鸡蛋、黄瓜的大小、颜色、价格进行统一规定、统一定价,这个叫数据标准管理。
  • 定完标准之后,我们得定期对各个菜市场进行检查,看看他们有没有按标准办事,这个叫数据质量管理。

讲透大数据分析,我只需要一顿饭!

 

3、配菜(数据建模)

配菜指的是根据要炒什么菜,将需要的各种食材事先搭配好放在一起,比如说我们要炒木须肉,那就把猪肉、鸡蛋、黄瓜都洗净、切好放在一个碗里,这样在炒菜的时候可以手到擒来,无需到处找食材,能够很好的提升炒菜的效率。

一般家庭做饭可能不会严格这么做,但对于餐饮行业来说,这是必备环节,想想买回来一车的食材,洗净、切好之后,如果没有一定的摆放规律,不能充分保证大厨炒菜时的效率,客户半天吃不到菜,那这个饭店的翻台率和回头率绝对高不了,还是趁早关门大吉。(老妈是个统筹规划能力很强的精细人,无论是宴请宾客还是一日三餐,都会在炒菜之前把各个菜所需要的食材进行事先搭配,所以让我得以了解。)

而在数据工程里,也同样有个专业性很强甚至被神话的配菜流程,这就是传说中的数据建模。数据建模就是建立数据存放模型,把各个数据源过来的各种数据根据一定的业务规则或者应用需求对数据重新进行规划、设计和整理。

配菜这个流程也许在做饭过程中不起眼,有时候可有可无,但是在数据工程里,数据建模却是个非常关键的环节,所以多说两句。

数据的种类之多、复杂度之高远远超过食材,比如一个银行,内部和业务、流程、管理相关的IT系统一般都超过100个,这也就是100多个菜市场,而每个菜市场能够提供的食材少则数百个,多则成千上万个,这都放在一起就是几十万个食材,再加上外部更加复杂的其他数据源,这么多不同类型、不同标准的食材放在一起,怎么才能让后面的炒菜更加高效和科学,其复杂度和可研究性也的确远远高于真正的配菜。

正因为如此,在数据发展史上出现了不少专业的建模(配菜)方法论:

  • 比如说按食材种类进行摆放的(猪肉放一堆,鸡蛋放一堆,黄瓜放一堆),我们叫范式建模,你要是开个火锅店或者准备吃火锅,那肯定是采用范式建模来配菜了
  • 比如按菜品种类进行摆放的(炒木须肉的放一堆,炒宫保鸡丁的放一堆),我们叫维度建模,你要是吃个家常炒菜,那采用维度建模方法来配菜就更合理了

各种方法论都有其产生背景、适用场景和支持者,为了不引起战争,这里就不做深入讨论了

在这些方法论基础上,经过不断的实践和研究,一些领先的数据厂商推出了标准的行业数据模型,什么叫行业数据模型呢,因为每个行业的业务特点不一样,比如说银行业、电信业、零售业的业务模式就有很大差异,数据也是不一样的,所以不同行业的数据怎么摆放,数据模型怎么设计,有着很强的行业独特性,所以每个行业都需要自己特定的数据模型,这叫术业有专攻。

上面这段话没看懂?没事。简单来说,行业数据模型就是“饭店筹备攻略”。

比如说你觉得川菜很赚钱,想开个川菜馆,但你只是个标准吃货,只吃过猪肉没看过猪跑,怎么办?没事,我这有本“川菜开店筹备攻略”,里面什么都有:

  • 首先,攻略里会告诉你川菜里有哪些知名、流行、畅销的菜品(比如水煮肉、毛血旺等等),定期更新,图文并茂,这样菜单有了。
  • 其次,每个菜品应该用什么样的食材,分别的配比是什么样的,攻略里已经终结出来了,而且是来自各大名厨的经验和终结,于是菜谱也有了。
  • 再次,每种食材在后厨的摆放位置是什么样的,这么摆放能够在厨房的有限空间里最大化的提高大厨们工作效率,详细的设计图纸攻略里也给你画好了,这样厨房设计图也有了。
  • 最后,我还告诉你每种食材去哪里能买到,哪里最经济实惠,连供应链都帮你打通了

所以,万事具备,只欠东风,你只要找个门面,雇两个蓝翔毕业生,我们就可以开业大吉,财源滚滚了。什么,找门面很麻烦,没事,我们连店面都可以提供,欢迎加入我们的加盟连锁计划,我们不但提供攻略,连店面也一起提供,带精装修的、锅碗瓢盆一应俱全。(传说中的一体机要出场了,当然,这是另外一个故事,先不展开了。

当然,如果不想开川菜店,我这里还有粤菜、湘菜、鲁菜......,嗯,“八大菜系开店攻略”我这里都有。

(以上内容稍微有点夸大,开个饭店不是一本攻略可以搞定的,做大数据也不是只有模型就可以的。不过很多时候,外人眼里的数据模型就是这么一本“葵花宝典”。)

说点题外话,由于数据建模的专业性太强,非常需要经验的积累,于是在数据行业里衍生了一个专门负责配菜的工种叫“模型设计师”,某全球知名厂商T公司的模型设计师就是业内各大猎头和甲方的香饽饽,T公司一度被挖成重灾区。

4、炒菜(数据加工)

炒菜相信大家都不陌生,如果配菜是个艺术活,那炒菜就绝对是个技术活了。各位大厨不但要有能力把各种食材组合起来炒熟,还得灵活运用油、盐、酱、醋等多种配料,保证菜品的色香味俱全。而且既然是开门迎客,各种消费者的需求都要能够响应,而且要响应的既快又好。

数据加工就是在炒菜,是个将各种数据进行计算、汇总、准备的流程,是为最后的数据应用和数据消费者服务的。客户的要求总是千奇百怪的,所以根据数据消费者的需求不同,数据加工的形式也是百花齐放。

数据加工除了满足以上各种数据需求,还有个不得不提的职责就是数据创新。这就好比为了保证饭店的竞争力和消费者们的新鲜感,不时推出新菜品也是大厨们的职责所在。而在数据圈里,通过数据进行创新已经成为潮流和共识,于是,数据分析师、数据科学家这些角色开始粉末登场。

他们的工作就是通过通过尝试各种数据(食材)和参数(调料)的组合方式来探索和发掘新的业务机会。而由于食材的量实在太大,配料比例的波动范围就更是无止境,难以靠人力把各种组合方式进行穷尽。于是,随着数学理论和技术发展,通过算法让计算机自动进行食材组合、调料配比从而产生新的发现成为可能,也就是我们现场经常听到的数据挖掘、机器学习了。

讲透大数据分析,我只需要一顿饭!

 

【甜点】

码字很累,洋洋洒洒写了不少,但感觉有些点还没有写透,有些方面还写的比较牵强,但领会精神最重要,放张大图,大家意会一下吧。

讲透大数据分析,我只需要一顿饭!

 

分享到:
评论

相关推荐

    电子科技大学《数据挖掘与大数据分析》课程期末复习资料

    数据挖掘与大数据分析是当前信息技术领域中的热点话题,这两者在现代企业和科研中扮演着至关重要的角色。电子科技大学开设的《数据挖掘与大数据分析》课程旨在让学生深入理解这两个概念,并掌握相关的理论和技术。 ...

    基于Hadoop的电影影评数据分析

    【基于Hadoop的电影影评数据分析】是一项大数据课程的大作业,旨在利用Hadoop的分布式处理能力来分析电影影评数据。Hadoop是一个由Apache软件基金会开发的开源框架,专为处理和存储大规模数据而设计。它由四个核心...

    数据分析师面试题目

    一个合格的数据分析师不仅需要掌握相关的技术技能,还要具备深厚的业务理解能力以及灵活运用数据分析思想解决问题的能力。在面试过程中,企业通常会考察应聘者在这几个方面的能力,以评估其是否适合该岗位。 首先,...

    excel数据分析教程完整版

    excel数据分析教程完整版excel数据分析教程完整版excel数据分析教程完整版excel数据分析教程完整版

    python数据分析课程设计

    Python数据分析课程设计是一个深入探索和理解数据的实践过程,它涵盖了数据预处理、探索性数据分析、建模以及结果解释等多个环节。在这个课程设计中,学生通常会接触到一系列Python库,如Pandas、NumPy、Matplotlib...

    安居客出租房(武汉为例)爬虫+数据分析+可视化

    但是作为我写爬虫以来注释最详细的一次,以及第一次真正使用像matplotlib这种数据分析库的代码,我认为还是有必要分享出来给大家当个参考的(PS:大佬轻拍~)。爬虫本身几乎没有什么难度,写的也比较乱,敬请见谅。 ...

    数理统计与数据分析 第3版

    数理统计与数据分析 第3版。。不是文字版的,不过也还是可以看的。

    R语言实战应用案例-大气污染数据分析(附代码+数据).zip

    在本R语言实战应用案例中,我们聚焦于大气污染数据分析,通过使用R语言的强大功能来探索、清洗、分析以及可视化环境监测数据。这个压缩包包含了两部分:一个名为"说明.txt"的文本文件,里面应该提供了对整个项目背景...

    二手房数据-数据分析练习资源.csv

    二手房数据-数据分析练习资源

    python数据分析pandas教程

    标题中提到的“Python数据分析pandas教程”直接指向了教程的主要内容,即使用Python中的pandas库进行...在数据日益重要的今天,掌握pandas将会对数据分析人员产生很大的帮助,使得处理和分析数据变得更加快速和高效。

    ESP8266-WIFI数据透传

    ESP8266-WIFI数据透传是一种技术,利用ESP8266 WiFi模块作为无线通信桥梁,将设备的数据无损、透明地传输到网络上的服务器。这种技术在物联网(IoT)应用中非常常见,因为ESP8266以其低功耗、低成本和强大的Wi-Fi...

    Python数据分析与机器学习-新闻分类任务

    在本主题"Python数据分析与机器学习-新闻分类任务"中,我们将探讨如何使用Python语言进行高效的数据分析,并将其应用于实际的新闻分类问题。新闻分类是自然语言处理(NLP)领域的一个常见任务,旨在将新闻文章自动...

    视频分析算法60讲

    为使读者全面了解视频分析算法的历史、思想、原理,《视频分析算法60 讲》详尽地介 ... 解决视觉分析领域中的诸多基础问题,可应用于机器视觉、大数据分析、  生物特征识别和智能视频监控等领域。

    基于python爬虫的中国疫情数据可视化分析

    **基于Python爬虫的中国疫情数据可视化分析** 在信息技术飞速发展的今天,数据已经成为各行各业决策的重要依据。在公共卫生领域,疫情数据的及时收集、分析和可视化对于防控策略的制定至关重要。本项目通过Python...

    数据分析-附件1.xlsx

    数据分析-附件1.xlsx

    Python3对股票数据进行分析源代码和股票数据集

    1、内容概要:本资源主要包括Python3对股票数据进行分析源代码、Python3对股票的收益和风险分析源代码、Python3对多股票的投资组合进行分析源代码、北京某投资管理有限公司20支真实股票数据、20支股票整体绘图分析...

    大数据分析之《用户画像分析》详解(方法+案例).pdf

    用户画像是当前大数据领域的一种典型应用,精确有效的用户画像,依赖于从大量的数据中提取正确的特征,这需要一个厉害的画像方法论,正确的数据处理流程,以及强大的数据管理系统作为支撑。本文档讲从用户画像基本概念...

    数理统计与数据分析(第3版)英文

    《数理统计与数据分析》(第三版)是一本由John A. Rice编写的经典教材,该书全面介绍了数学统计学的基础理论以及如何将这些理论应用于实际的数据分析之中。本书适合于本科生和研究生作为教材使用,同时也适用于专业...

    统计学方法与数据分析(上下册)

    作者把统计数据的收集与分析过程总结成"四步法",并把"四步法"的讲解贯穿始终,利用实例逐步展开并阐明在设计调查研究或试验时所需要的统计技术和思路,然后讲解用直观、有效的"四步法"来收集并分析数据,非常利于...

    用c#编写的读取大智慧提供的DLL以及每天股票数据

    总之,用C#读取大智慧DLL并进行股票数据分析是一个综合性的任务,涉及C#编程、DLL导入、数据解析、金融知识以及数据分析技能。这个项目可以帮助开发者提升跨领域的能力,对于想要在金融信息技术领域发展的人员来说,...

Global site tag (gtag.js) - Google Analytics