`

大数据时代【Big Data】读书笔记

 
阅读更多

大数据时代【Big Data】 ——Viktor Mayer-Schonberger, Kenneth Cukier

    这本书讲了讲大数据的概念,他没有定义什么是大数据,而是用for an example的形式定义了大数据。里面的几个例子:Farecast利用机票数据来预测未来的机票票价;谷歌重复使用搜索关键词来检测流感的传播;麦格雷戈博士用婴儿的生命体征来预测传染病的发生;莫里重新利用老船长的日志而发现了洋流。19世纪的电缆信息和工作人员的维修记录可以用来预防未来事故的发生。一个核心的思想是,之前我们没有能力获取全部数据,或者获取全部数据成本过于高昂,使得我们使用“样本”去揣测”全局“。而现在我们有能力获取全部数据,或者获取全部数据的成本大大降低,使得我们使用“全部”数据成为可能。当你掌控了全部数据,那么你能从这里得到你在样本时无法看到的一些东西,同时,这个全集也带给了我们全部的“知识”,只要能不断挖掘出这里的知识,那么这个“大数据”才能真正为我们服务。在这些大数据里,充斥着各种噪音,杂乱数据,但是正确的数据毕竟比错误的要多的多的多,因而,在大数据下那些错误数据会被轻易的发现或者不起作用,从而使得整个使用大数据的系统更加稳健,容错性也更高。虽然我们喜欢刨根问底,凡事喜欢问个为什么?但是在现实世界中,我们越来越倾向于模糊的结果,也就是相关关系运用的越来越多,因果关系也不是那么准确并且耗费极大。再说道大数据的“个人隐私”问题,一个是道德(使用大数据人的道德),一个就是监管,和现实世界的体系是一样的。还记得实验室老师的一句话:虚拟世界就是将现实世界的一些东西统统搬到虚拟世界里,然后才进行一些改进。

    里面一个小故事对我还是有些启发的:20世纪90年代,就是199x年,由于网络上的垃圾程序盛行,一个牛人发明了验证码,随后就有了今天每个人在每次输入验证码时都会浪费10s时间来做一件无意义的事情(除了验证没有他用)。这个东西能用来做点有用的事情吗?全球每年因为验证码要浪费多少时间?能不能把验证码来结合做点别的事情?他们弄出了一个reCAPTCHA系统(CAPTCHA的中文全称是全自动区分计算机和人类的图灵测试)。让他们的电脑去向人类求助。具体做法是:将OCR软件无法识别的文字扫描图传给世界各大网站,用以替换原来的验证码图片;那些网站的用户在正确识别出这些文字之后,其答案便会被传回CMU的reCAPTCHA系统。在完成功能的同时还能附带做点什么有用的事吗?要有一颗“做事”的心。

    还有一个小故事:google当年做街景,开着小车到处转悠。其实google挺贼的,小车里不仅采集照片(这些有争议的民房信息,意大利就抗议这个事情,怕黑手党利用街景洗劫他们),还在开车的同时记录下GPS信息为之后自动驾驶收集资料,还记录附近wifi的信息。所以一趟小车开下来,它想要的好几种数据都有了。虽然当时他可能想不到用这些数据做什么,但是他有这”贼心“,一次就能收集多个数据,就和打游戏一样,你得先有意识,然后想出法来就去操作。在收集信息的时候,如果条件允许,尽量多收集一些数据,方便未来使用,并且成本也大大降低。数据不仅是银行,还可以变现。

    

    下面是一些摘抄:

 

====第一部分:大数据时代的思维变革=====

1. 更多:不是随机样本,而是全体数据

2. 更杂:不是精确而是混杂性

3. 更好:不是因果关系,而是相关关系

====第二部分:大数据时代的商业变革=====

4. 数据化:一切皆可“量化”

5. 价值:“取之不尽,用之不竭”的数据创新

6. 角色定位:数据、技术与思维的三足鼎立

====第三部分:大数据时代的管理变革====

7. 风险:让数据主宰一切的隐忧

8. 掌控:责任与自由并举的信息管理

结束语:正在发生的未来

    大数据并不是一个充斥着算法和机器的冰冷世界,人类的作用依然无法被完全替代。大数据为我们提供的不是最终答案,只是参考答案,帮助是暂时的,而更好的方法和答案还在不久的未来。

 

大数据不是指不用随机分析法这样的捷径,而采用所有数据的方法。

 

大数据的简单算法比小数据的复杂算法更有效。

 

相关关系没有绝对,只有可能性。

 

一个东西要出故障,不会是瞬间的,而是慢慢地出现问题的。通过找出一个关联物并监控它,我们就能够预测未来。

 

收集和分析数据的花费比出现停产的损失小得多。当收集、存储和分析数据的成本比较高的时候,应该适当地丢弃一些数据。

 

”是什么“,而不是“为什么”

 

不像因果关系,证明相关关系的实验耗资少,费时也少。

 

相关关系很有用,不仅仅是因为它能为我们提供新的视角,而且提供的视角都很清晰。而我们一旦把因果关系考虑进来,这些视角就有可能被蒙蔽掉。

 

预测给我们知识,而知识赋予我们智慧和洞见

 

数字化与数据化是两个概念

 

苹果推出iphone是经过大量调查的,苹果和运行商合作时索取了大量用户的需求数据,得到用户体验是一件非常重要的事情,所以没有偶然,都是发展的必然。

 

 

分享到:
评论

相关推荐

    大数据(Bigdata)详解完整版

    大数据(Bigdata)是21世纪信息技术领域的一个关键术语,它涵盖了从数据收集、存储、分析到价值提取的全过程。大数据的特点通常被概括为“5V”:Volume(大量)、Velocity(高速)、Variety(多样)、Value(低价值...

    bigdata《大数据时代》读书笔记-精华观点和核心语句.pdf

    bigdata《大数据时代》读书笔记-精华观点和核心语句.pdf

    大数据时代读书笔记2021年.pdf

    大数据时代读书笔记2021年.pdf

    BigData大数据学习笔记

    BigData大数据学习笔记

    bigdata大数据时代读书笔记精华观点和核心语句.pdf

    《大数据时代》这本书的核心观点和精华语句集中在大数据的特点、应用以及由此引发的思维方式变革上。在大数据时代,我们不再过于追求数据的精确度和因果关系,而是转向接受数据的混杂性和探索相关关系。 首先,书中...

    HCIA-Big Data考试题库.zip

    【HCIA-Big Data考试题库】是针对华为认证ICT Associate(华为认证初级信息通信技术专家)中的大数据方向所设计的复习资料集合。这个压缩包包含了一份名为“HCIA-Big Data考试题库.docx”的文档,很可能包含了模拟...

    bigdata笔记1

    "bigdata笔记1"可能包含的是对大数据基础知识、主要技术框架及其应用的概述。以下是一些可能涵盖的重要知识点: 1. **大数据定义**:大数据不仅仅是数据的量大,它还包括数据的多样性、速度和价值。大数据的4V特性...

    BigData文档笔记

    【标题】"BigData文档笔记"揭示了大数据技术在当今信息时代的重要地位,这是一门涉及数据处理、存储和分析的复杂学科。大数据的核心在于如何有效地处理海量数据,以提取有价值的信息并支持业务决策。 【描述】"big...

    bigdata笔记

    "bigdata笔记"可能涵盖了这个领域的多个关键概念和技术,如数据挖掘、云计算、分布式计算、数据存储和分析工具等。 1. 数据挖掘:数据挖掘是通过应用统计学、机器学习和人工智能算法,从大量数据中发现模式和关系的...

    web intelligence and big data--笔记

    #### 1.2 Web-Scale AI和BigData Web-Scale AI指的是在Web规模上实现的AI应用,如图像识别、人脸识别等,它们利用大数据技术来处理大规模数据集,并对数据进行智能化分析。大数据(Big Data)则描述了数据量巨大、...

    UCSD_BigData:UCSD 大数据课程的脚本和笔记本存储库

    《UCSD大数据课程:探索与学习笔记》 加州大学圣地亚哥分校(UCSD)在2014年春季开设的大数据课程,以其丰富的教学资源和深入的实践性,为学生提供了一次全面掌握大数据技术的宝贵机会。该课程的核心在于一系列精心...

    大数据Linux基础学习笔记

    以下是对"大数据Linux基础学习笔记"的相关知识点的详细说明: 一、Linux简介 Linux是一种自由和开放源代码的类UNIX操作系统,由Linus Torvalds在1991年创建。它提供了一个强大的命令行界面,支持多用户、多任务,且...

    BigData-Notes-master

    《大数据技术精要——以BigData-Notes-master为线索》 大数据,作为21世纪信息技术领域的重要里程碑,正引领着一场深刻的科技革命。在我们所探讨的“BigData-Notes-master”项目中,包含了对大数据处理、分析及应用...

    大数据导论PPT和期末复习笔记

    南京工程学院大数据科学导论,上课PPT,期末复习笔记

    大数据平台,hadoop集群学习笔记

    本笔记将深入探讨Hadoop集群及其核心组件,帮助读者理解大数据平台的基础与精髓。 第一章介绍了大数据的基本概念。大数据是指无法用传统数据处理方法进行有效管理的数据集,其特点包括高容量、高速度和多样性。...

    bigData:大数据比赛项目库

    标题 "bigData:大数据比赛项目库" 暗示了这是一个与大数据竞赛相关的资源集合,可能包含各种数据集、分析代码、模型构建等元素。在这个项目库中,开发者或者研究者可以找到各种实际问题的数据挑战,提升自己的大数据...

    HCIA bigdata H13-711 所有题目和考试模拟软件.zip

    "免费:H13-711 HCNA-Big Data 大数据.zip"文件包含了华为HCIA-Big Data认证的复习资料,可能包括讲义、笔记、课件等,这些都是备考的重要资源。考生应仔细研读,结合模拟考试软件进行系统学习。 总结来说,HCIA-...

    BigdataNote:大数据生态学习笔记文档,总结hadoop分布式计算框架、yarn、数据分析步骤、storm、kafka、Hbase、spark等知识用于个人学习,分享优秀笔记博客

    BigdataNote ...大数据生态学习笔记 大数据笔记 hadoop搭建 hive笔记 HDFS YARN Mapreduce ORACLE面试 oracle 优化方法总结 https://www.cnblogs.com/doudou618/p/9376424.html 数据库面试 ...

Global site tag (gtag.js) - Google Analytics