阅读更多

3顶
0踩

互联网
不管大数据怎么发展,它始终会处在时灵时不灵的状态上,因为这根本不是个技术问题,反身性作用越大的领域越不容易预测,反之则预测的帮助会比较大。因此用大数据时最好考虑其能力边界,否则就可能会得不偿失。



大数据必会深刻的改变这个世界,这点是毋庸置疑的,但从很多当下的讨论来看,大家似乎在大数据的使用边界上走入了误区,这篇文章想具体探讨下大数据能干什么以及不能干什么上的原则问题。

大数据与预测

人们总是想预测未来,因为这样经济收益会非常大,作为结果就经常看到大数据与票房预测的故事,有时准,有时不准。

大数据确实可以用来做预测,但是有能力边界的,影响这个能力边界的关键因素就是索罗斯经常说的反身性。反身性说的是:参入者的思维与参入的情景之间相互联系与影响,彼此无法独立,认知与参入处于永远的变化过程之中(百度百科)。反身性之所以对预测有影响,是因为它会导致出现不连续的变化。

这在逻辑上很好理解,当一件事物是连续变化的,你比较容易计算出它未来的状态,比如汽车,我们只要知道他的速度,那就比较容易预测它下一刻的位置。但如果是充满突变的混沌系统,这种预测就很难实现,汽车本来走的好好的,突然天上掉下一架飞机来,那它当然不会出现在本来预测的那个位置。所以做预测,第一关键是这系统是不是一个混沌系统,在充满偶然的混沌系统里,基于数据的预测是无效的。而反身性正是导致混沌蝴蝶会出现的一个关键因素。

当我们去观察某个系统并采取行动时,系统本身会因为我们的观察和行动发生改变,这就是反身性。而当每个人都这么做时,那被观察和操作的系统就会变成混沌系统。金融市场已经充分说明了这点,如果大数据在预测上是没边界的,那只要掌握了大数据就应用技巧,那在金融市场上就没人不会赔钱,但显然这是不可能的,最多是不同人输赢的概率不同。

容易预测的与不容易预测的

如果一种现实更多的依赖于某些不易改变的因素,比如一种文化传统、一种生物特性,那这种现实是容易被预测的;如果一种现实更多的依赖于可被瞬间改变的因素,比如:人们的心情,那这种现实是不容易预测的,甚至是不可预测的。

具体来讲,人们生病后会检索自己的相关症状,而传染病会扩散,因此Google那种监测传染病暴发区域,以及预测其可能扩散路径的大数据使用方式是极为有效的。在这里反身性并不起太大作用。

但股票就不行,因为你在预测,别人也在预测,买家和卖家的行动又不一致,这就会使股票市场成为混沌系统。究竟怎么样才能用大数据预测到国内这波股票的上涨呢?

同传染病和股票市场相比,电影票房的可预测性则在两者之间。有必然性在支撑,比如基本上很垃圾的电影很难有好的票房,但偶然性影响也很大,你不好预测那个点戳到了人们的那个神经,它突然就变火了。谁能预测泰囧的10亿票房呢?所以我的判断是在票房预测上,不管大数据怎么发展,它始终会处在时灵时不灵的状态上,因为这根本不是个技术问题。

总结来看,反身性作用越大的领域越不容易预测,反之则预测的帮助会比较大。

监测与预测

在预测上大数据必须面对自己的边界问题,但在监测上大数据的威力是无远弗届的。

我们这个世界的数据化程度一定是越来越高的,当我们在社交网络中活动时,其实就是我们个人在不停数据化的过程,我们的偏好、关系、每日活动等正在源源不断的数据化过程中,如果可穿戴设备、智能家居发展起来,那数据化的东西就会更多。

我在互联网时代的方法论那系列文章里一直坚持这样一种观点,互联网正在生成一个与现实世界并行的很像黑客帝国的意识空间,而这个意识空间是数据化的。理论上讲,在这个空间里不存在信息不透明这回事,空间和时间不再成为阻隔信息流动的障碍。所以不管你喜欢不喜欢,在数字化面前每个人正在变成透明人,也就是说100%可监测。

监测与预测间的桥梁是必然逻辑和直觉,直觉依赖于个人才情天分,这放在一边不提,主要谈下必然逻辑。有必然逻辑在事情就有了发生的可能性,但不一定发生。这点比较不好理解,我们来看个例子:

引用
我们谈微信的时候更容易聚焦到张小龙打造产品的功力,往往容易忽视马化腾张小龙才是打造微信的组合。从公开报道来看,当时腾讯内部是有很多团队同时在开发移动IM的,而这种投入很可能是基于“移动互联网才是真的互联网,腾讯必须在移动互联网的IM上占有统治地位”的假设,在这种假设下马化腾又有所谓的灰度理论,所以才有多支团队同时并进。如果没有这类顶层设计,我想更多公司更可能是在移动版QQ上做微创新,进一步掉入创新者的窘境。

如果抽象点来分解这个例子,那我们可以这么讲,移动互联网的发展是可以从大数据上感知的,因为只要做足够的监测,那么就可以从数据上在较早阶段感知到这个趋势。但判断移动互联网是真的互联网,则依赖于当事人的眼光格局,再进一步决定去同时做微信和手机QQ,那则是上述逻辑的一个后果。在决定做微信那个时间点,马化腾乃至其他大佬也不知道它一定能成,否则大家一定是别的事情都不干,都专心做微信。但微信确实是移动互联网是真的互联网这一条必然逻辑的一个衍生品,相当于是预测未来的一个后果。这就是大数据、监测、必然逻辑与预测的关系。

结束语

大数据方兴未艾,但在用大数据时最好也考虑下它的能力边界,否则就可能因为它在某个点上失灵而怀疑大数据本身,这是会得不偿失了。随着数据化程度的提高,反身性的作用可能会越来越大,作为结果,世界会变得越来越像混沌系统。在这样的趋势下,相信上文提到的监测与必然逻辑的结合应该会对如何使用大数据有所帮助。

作者介绍:李智勇,《互联网时代的方法论》、《完美软件开发:方法与逻辑》及《程序员生存定律作者》作者,微信订阅号:zuomoshi(琢磨事)
  • 大小: 23.9 KB
3
0
评论 共 0 条 请登录后发表评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

  • 大数据征信 是伪命题?还是金融行业的救世主?

    不管是阿里的“芝麻信用”,还是腾讯的社交数据,这些所谓的“大数据征信”,真的能成为中国互金的救世主吗? 1、风控之痛 “中国的互金产业发展慢,成本高,很重要的原因,是因为中国没有自己的征信体系,导致...

  • 大数据和物联网时代的隐私伪命题

    随着越来越多的落地应用正在宣告大数据和物联网、云计算时代的到来,但是所谓隐私的法律阴影又一次徘徊在新生事物的上空。每一次互联网的用户资料泄密都是一场风波,在断断续续的风波里,这次的隐私问题似乎成了一个...

  • 工业大数据是中国制造的伪命题 | 无知识不数据 精益数据时代

    工业大数据在中国是伪命题 大数据本来有更加学术化的名称:数据密集型(Data-Intensive)计算研究。微软在2009年组织撰写《第四范式:数据密集型科学发现》一书,给与这种方法以“范式里程碑”的待遇。而对于大众而言...

  • 工业大数据是中国制造的伪命题丨无知识不数据 精益数据时代

    工业大数据在中国是伪命题 大数据本来有更加学术化的名称:数据密集型(Data-Intensive)计算研究。微软在2009年组织撰写《第四范式:数据密集型科学发现》一书,给与这种方法以“范式里程碑”的待遇。而对于大众而言...

  • 在中国,生态是不是个伪命题?

    (1)一说产品生态我就想起了微软微软的生态是我影响最深刻的。因为微软是做操作系统的。这个产品,如果上面没有任何应用,那这个操作系统安装完了真没啥用。所以微软做的是个系统基础设施技术产品,必...

  • 移动医疗大数据的几个伪命题:大数据的陷阱

    移动医疗大数据的几个伪命题:大数据的陷阱 2014-08-08 09:48 Dr.2 雷锋网 字号:T | T 在医疗大数据项目中,很多情况下,由于无法验证有效性、敏感性和特异性,所以即使得出了100个结果趋势,却没有几个...

  • 集成是个伪命题

    嗯嗯,本来研发设计BOM,和生产BOM,和销售BOM,就不是一个东西。以谁为唯一标准、舍弃其他两个,都是不对的。 另外再看,销售合同收入、开票收入、回款收入、权责收入,本来是为了满足不同业务决策的统计口径,你...

  • 深度观察 | 天猫搜索成交增长144倍,预制菜是真命题还是伪风口?

    为了更好的定位预制菜目前的发展情况,我们将预制菜与其他品类的预制食品相比较,利用小红书大数据,通过市场规模、市场增速、用户红利、流量热度等维度对预制菜进行评估。各预制食品品类说明如下: 半成品菜 即...

  • 应用程序灵活组合,是个存在了40年的伪命题

    CORBA是个大集成者: 1、ORB(对象请求代理实现) 2、命名注册与发现基础服务(这个和RPC没啥差异) 3、IDL接口描述语言(这个和RPC没啥差异) 4、IIOP应用调用协议(这是比RPC新增的应用层的协议) 5、网络传输:...

  • 35岁是不是一个伪命题?

    2017年4月份,华为传出清退34+员工的消息。2017年12月份,中兴一位42岁的工程师...……似乎上了点年纪的人,正遭遇非常严重的危机,很多人难以自持的忧虑起来:难道软件和互联网,真的容不下我们这些大龄青年?难道...

  • “5G 是个伪命题?”

    不过当理论上的突破性技术面对现实时,仅凭一己之力的 5G 是否真的就可以彻底改变世界? 作者 | Roman Luzgin 译者 | 苏本如 责编 | 屠敏 出品 | CSDN(ID:CSDNNews) 以下为译文: 近几年来,围绕 5G 的认知被...

  • 现在的湖仓一体像是个伪命题

    现在很热的湖仓一体(Lakehouse)也一样,如果能将数据湖和数据仓库融合在一起就可以同时发挥二者的价值。 数据湖和数据仓库一直以来都有十分密切的联系但同时存在显著的差异。数据湖更注重原始信息的保留,将原始...

  • ERP行业,去国外化是伪命题

    真心希望一些不具名的ERP厂商多多努力,做出更好的产品,而不是寄希望国家和政策去打压竞品,靠这种幻想活着~

  • 柔性供应链是个伪命题吗?

    2010年左右,”淘卖“才是真正把”柔性供应链“这个词带到媒体和资本圈的视野里的始作俑者,而说到淘卖,就不得不提到一家当年的明星公司:韩都衣舍。 我觉得今天做或者研究服装的朋友与其一窝蜂地去研究shein,其实...

  • pendulum-2.1.2-cp39-cp39-win32.whl.rar

    python whl离线安装包 pip安装失败可以尝试使用whl离线安装包安装 第一步 下载whl文件,注意需要与python版本配套 python版本号、32位64位、arm或amd64均有区别 第二步 使用pip install XXXXX.whl 命令安装,如果whl路径不在cmd窗口当前目录下,需要带上路径 WHL文件是以Wheel格式保存的Python安装包, Wheel是Python发行版的标准内置包格式。 在本质上是一个压缩包,WHL文件中包含了Python安装的py文件和元数据,以及经过编译的pyd文件, 这样就使得它可以在不具备编译环境的条件下,安装适合自己python版本的库文件。 如果要查看WHL文件的内容,可以把.whl后缀名改成.zip,使用解压软件(如WinRAR、WinZIP)解压打开即可查看。 为什么会用到whl文件来安装python库文件呢? 在python的使用过程中,我们免不了要经常通过pip来安装自己所需要的包, 大部分的包基本都能正常安装,但是总会遇到有那么一些包因为各种各样的问题导致安装不了的。 这时我们就可以通过尝试去Python安装包大全中(whl包下载)下载whl包来安装解决问题。

  • Nginx配置文件中FastCGI相关参数理解

    Nginx配置文件中FastCGI相关参数理解

  • Pillow-8.4.0-cp310-cp310-win32.whl.rar

    python whl离线安装包 pip安装失败可以尝试使用whl离线安装包安装 第一步 下载whl文件,注意需要与python版本配套 python版本号、32位64位、arm或amd64均有区别 第二步 使用pip install XXXXX.whl 命令安装,如果whl路径不在cmd窗口当前目录下,需要带上路径 WHL文件是以Wheel格式保存的Python安装包, Wheel是Python发行版的标准内置包格式。 在本质上是一个压缩包,WHL文件中包含了Python安装的py文件和元数据,以及经过编译的pyd文件, 这样就使得它可以在不具备编译环境的条件下,安装适合自己python版本的库文件。 如果要查看WHL文件的内容,可以把.whl后缀名改成.zip,使用解压软件(如WinRAR、WinZIP)解压打开即可查看。 为什么会用到whl文件来安装python库文件呢? 在python的使用过程中,我们免不了要经常通过pip来安装自己所需要的包, 大部分的包基本都能正常安装,但是总会遇到有那么一些包因为各种各样的问题导致安装不了的。 这时我们就可以通过尝试去Python安装包大全中(whl包下载)下载whl包来安装解决问题。

  • yolo算法-刹车灯探测器数据集-1070张图像带标签-交通信号灯.zip

    yolo系列算法目标检测数据集,包含标签,可以直接训练模型和验证测试,数据集已经划分好,包含数据集配置文件data.yaml,适用yolov5,yolov8,yolov9,yolov7,yolov10,yolo11算法; 包含两种标签格:yolo格式(txt文件)和voc格式(xml文件),分别保存在两个文件夹中; yolo格式:<class> <x_center> <y_center> <width> <height>, 其中: <class> 是目标的类别索引(从0开始)。 <x_center> 和 <y_center> 是目标框中心点的x和y坐标,这些坐标是相对于图像宽度和高度的比例值,范围在0到1之间。 <width> 和 <height> 是目标框的宽度和高度,也是相对于图像宽度和高度的比例值

  • pocketsphinx-0.1.15-cp36-cp36m-win32.whl.rar

    python whl离线安装包 pip安装失败可以尝试使用whl离线安装包安装 第一步 下载whl文件,注意需要与python版本配套 python版本号、32位64位、arm或amd64均有区别 第二步 使用pip install XXXXX.whl 命令安装,如果whl路径不在cmd窗口当前目录下,需要带上路径 WHL文件是以Wheel格式保存的Python安装包, Wheel是Python发行版的标准内置包格式。 在本质上是一个压缩包,WHL文件中包含了Python安装的py文件和元数据,以及经过编译的pyd文件, 这样就使得它可以在不具备编译环境的条件下,安装适合自己python版本的库文件。 如果要查看WHL文件的内容,可以把.whl后缀名改成.zip,使用解压软件(如WinRAR、WinZIP)解压打开即可查看。 为什么会用到whl文件来安装python库文件呢? 在python的使用过程中,我们免不了要经常通过pip来安装自己所需要的包, 大部分的包基本都能正常安装,但是总会遇到有那么一些包因为各种各样的问题导致安装不了的。 这时我们就可以通过尝试去Python安装包大全中(whl包下载)下载whl包来安装解决问题。

Global site tag (gtag.js) - Google Analytics