阅读更多

3顶
0踩

互联网
不管大数据怎么发展,它始终会处在时灵时不灵的状态上,因为这根本不是个技术问题,反身性作用越大的领域越不容易预测,反之则预测的帮助会比较大。因此用大数据时最好考虑其能力边界,否则就可能会得不偿失。



大数据必会深刻的改变这个世界,这点是毋庸置疑的,但从很多当下的讨论来看,大家似乎在大数据的使用边界上走入了误区,这篇文章想具体探讨下大数据能干什么以及不能干什么上的原则问题。

大数据与预测

人们总是想预测未来,因为这样经济收益会非常大,作为结果就经常看到大数据与票房预测的故事,有时准,有时不准。

大数据确实可以用来做预测,但是有能力边界的,影响这个能力边界的关键因素就是索罗斯经常说的反身性。反身性说的是:参入者的思维与参入的情景之间相互联系与影响,彼此无法独立,认知与参入处于永远的变化过程之中(百度百科)。反身性之所以对预测有影响,是因为它会导致出现不连续的变化。

这在逻辑上很好理解,当一件事物是连续变化的,你比较容易计算出它未来的状态,比如汽车,我们只要知道他的速度,那就比较容易预测它下一刻的位置。但如果是充满突变的混沌系统,这种预测就很难实现,汽车本来走的好好的,突然天上掉下一架飞机来,那它当然不会出现在本来预测的那个位置。所以做预测,第一关键是这系统是不是一个混沌系统,在充满偶然的混沌系统里,基于数据的预测是无效的。而反身性正是导致混沌蝴蝶会出现的一个关键因素。

当我们去观察某个系统并采取行动时,系统本身会因为我们的观察和行动发生改变,这就是反身性。而当每个人都这么做时,那被观察和操作的系统就会变成混沌系统。金融市场已经充分说明了这点,如果大数据在预测上是没边界的,那只要掌握了大数据就应用技巧,那在金融市场上就没人不会赔钱,但显然这是不可能的,最多是不同人输赢的概率不同。

容易预测的与不容易预测的

如果一种现实更多的依赖于某些不易改变的因素,比如一种文化传统、一种生物特性,那这种现实是容易被预测的;如果一种现实更多的依赖于可被瞬间改变的因素,比如:人们的心情,那这种现实是不容易预测的,甚至是不可预测的。

具体来讲,人们生病后会检索自己的相关症状,而传染病会扩散,因此Google那种监测传染病暴发区域,以及预测其可能扩散路径的大数据使用方式是极为有效的。在这里反身性并不起太大作用。

但股票就不行,因为你在预测,别人也在预测,买家和卖家的行动又不一致,这就会使股票市场成为混沌系统。究竟怎么样才能用大数据预测到国内这波股票的上涨呢?

同传染病和股票市场相比,电影票房的可预测性则在两者之间。有必然性在支撑,比如基本上很垃圾的电影很难有好的票房,但偶然性影响也很大,你不好预测那个点戳到了人们的那个神经,它突然就变火了。谁能预测泰囧的10亿票房呢?所以我的判断是在票房预测上,不管大数据怎么发展,它始终会处在时灵时不灵的状态上,因为这根本不是个技术问题。

总结来看,反身性作用越大的领域越不容易预测,反之则预测的帮助会比较大。

监测与预测

在预测上大数据必须面对自己的边界问题,但在监测上大数据的威力是无远弗届的。

我们这个世界的数据化程度一定是越来越高的,当我们在社交网络中活动时,其实就是我们个人在不停数据化的过程,我们的偏好、关系、每日活动等正在源源不断的数据化过程中,如果可穿戴设备、智能家居发展起来,那数据化的东西就会更多。

我在互联网时代的方法论那系列文章里一直坚持这样一种观点,互联网正在生成一个与现实世界并行的很像黑客帝国的意识空间,而这个意识空间是数据化的。理论上讲,在这个空间里不存在信息不透明这回事,空间和时间不再成为阻隔信息流动的障碍。所以不管你喜欢不喜欢,在数字化面前每个人正在变成透明人,也就是说100%可监测。

监测与预测间的桥梁是必然逻辑和直觉,直觉依赖于个人才情天分,这放在一边不提,主要谈下必然逻辑。有必然逻辑在事情就有了发生的可能性,但不一定发生。这点比较不好理解,我们来看个例子:

引用
我们谈微信的时候更容易聚焦到张小龙打造产品的功力,往往容易忽视马化腾张小龙才是打造微信的组合。从公开报道来看,当时腾讯内部是有很多团队同时在开发移动IM的,而这种投入很可能是基于“移动互联网才是真的互联网,腾讯必须在移动互联网的IM上占有统治地位”的假设,在这种假设下马化腾又有所谓的灰度理论,所以才有多支团队同时并进。如果没有这类顶层设计,我想更多公司更可能是在移动版QQ上做微创新,进一步掉入创新者的窘境。

如果抽象点来分解这个例子,那我们可以这么讲,移动互联网的发展是可以从大数据上感知的,因为只要做足够的监测,那么就可以从数据上在较早阶段感知到这个趋势。但判断移动互联网是真的互联网,则依赖于当事人的眼光格局,再进一步决定去同时做微信和手机QQ,那则是上述逻辑的一个后果。在决定做微信那个时间点,马化腾乃至其他大佬也不知道它一定能成,否则大家一定是别的事情都不干,都专心做微信。但微信确实是移动互联网是真的互联网这一条必然逻辑的一个衍生品,相当于是预测未来的一个后果。这就是大数据、监测、必然逻辑与预测的关系。

结束语

大数据方兴未艾,但在用大数据时最好也考虑下它的能力边界,否则就可能因为它在某个点上失灵而怀疑大数据本身,这是会得不偿失了。随着数据化程度的提高,反身性的作用可能会越来越大,作为结果,世界会变得越来越像混沌系统。在这样的趋势下,相信上文提到的监测与必然逻辑的结合应该会对如何使用大数据有所帮助。

作者介绍:李智勇,《互联网时代的方法论》、《完美软件开发:方法与逻辑》及《程序员生存定律作者》作者,微信订阅号:zuomoshi(琢磨事)
  • 大小: 23.9 KB
3
0
评论 共 0 条 请登录后发表评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

  • 大数据征信 是伪命题?还是金融行业的救世主?

    不管是阿里的“芝麻信用”,还是腾讯的社交数据,这些所谓的“大数据征信”,真的能成为中国互金的救世主吗? 1、风控之痛 “中国的互金产业发展慢,成本高,很重要的原因,是因为中国没有自己的征信体系,导致...

  • 大数据和物联网时代的隐私伪命题

    随着越来越多的落地应用正在宣告大数据和物联网、云计算时代的到来,但是所谓隐私的法律阴影又一次徘徊在新生事物的上空。每一次互联网的用户资料泄密都是一场风波,在断断续续的风波里,这次的隐私问题似乎成了一个...

  • 工业大数据是中国制造的伪命题 | 无知识不数据 精益数据时代

    工业大数据在中国是伪命题 大数据本来有更加学术化的名称:数据密集型(Data-Intensive)计算研究。微软在2009年组织撰写《第四范式:数据密集型科学发现》一书,给与这种方法以“范式里程碑”的待遇。而对于大众而言...

  • 工业大数据是中国制造的伪命题丨无知识不数据 精益数据时代

    工业大数据在中国是伪命题 大数据本来有更加学术化的名称:数据密集型(Data-Intensive)计算研究。微软在2009年组织撰写《第四范式:数据密集型科学发现》一书,给与这种方法以“范式里程碑”的待遇。而对于大众而言...

  • 在中国,生态是不是个伪命题?

    (1)一说产品生态我就想起了微软微软的生态是我影响最深刻的。因为微软是做操作系统的。这个产品,如果上面没有任何应用,那这个操作系统安装完了真没啥用。所以微软做的是个系统基础设施技术产品,必...

  • 移动医疗大数据的几个伪命题:大数据的陷阱

    移动医疗大数据的几个伪命题:大数据的陷阱 2014-08-08 09:48 Dr.2 雷锋网 字号:T | T 在医疗大数据项目中,很多情况下,由于无法验证有效性、敏感性和特异性,所以即使得出了100个结果趋势,却没有几个...

  • 集成是个伪命题

    嗯嗯,本来研发设计BOM,和生产BOM,和销售BOM,就不是一个东西。以谁为唯一标准、舍弃其他两个,都是不对的。 另外再看,销售合同收入、开票收入、回款收入、权责收入,本来是为了满足不同业务决策的统计口径,你...

  • 深度观察 | 天猫搜索成交增长144倍,预制菜是真命题还是伪风口?

    为了更好的定位预制菜目前的发展情况,我们将预制菜与其他品类的预制食品相比较,利用小红书大数据,通过市场规模、市场增速、用户红利、流量热度等维度对预制菜进行评估。各预制食品品类说明如下: 半成品菜 即...

  • 应用程序灵活组合,是个存在了40年的伪命题

    CORBA是个大集成者: 1、ORB(对象请求代理实现) 2、命名注册与发现基础服务(这个和RPC没啥差异) 3、IDL接口描述语言(这个和RPC没啥差异) 4、IIOP应用调用协议(这是比RPC新增的应用层的协议) 5、网络传输:...

  • 35岁是不是一个伪命题?

    2017年4月份,华为传出清退34+员工的消息。2017年12月份,中兴一位42岁的工程师...……似乎上了点年纪的人,正遭遇非常严重的危机,很多人难以自持的忧虑起来:难道软件和互联网,真的容不下我们这些大龄青年?难道...

  • “5G 是个伪命题?”

    不过当理论上的突破性技术面对现实时,仅凭一己之力的 5G 是否真的就可以彻底改变世界? 作者 | Roman Luzgin 译者 | 苏本如 责编 | 屠敏 出品 | CSDN(ID:CSDNNews) 以下为译文: 近几年来,围绕 5G 的认知被...

  • 现在的湖仓一体像是个伪命题

    现在很热的湖仓一体(Lakehouse)也一样,如果能将数据湖和数据仓库融合在一起就可以同时发挥二者的价值。 数据湖和数据仓库一直以来都有十分密切的联系但同时存在显著的差异。数据湖更注重原始信息的保留,将原始...

  • ERP行业,去国外化是伪命题

    真心希望一些不具名的ERP厂商多多努力,做出更好的产品,而不是寄希望国家和政策去打压竞品,靠这种幻想活着~

  • 柔性供应链是个伪命题吗?

    2010年左右,”淘卖“才是真正把”柔性供应链“这个词带到媒体和资本圈的视野里的始作俑者,而说到淘卖,就不得不提到一家当年的明星公司:韩都衣舍。 我觉得今天做或者研究服装的朋友与其一窝蜂地去研究shein,其实...

  • 常用1.SchLib

    常用1.SchLib

  • tokenizers-0.26.0.jar中文文档.zip

    # 【tokenizers-***.jar***文档.zip】 中包含: ***文档:【tokenizers-***-javadoc-API文档-中文(简体)版.zip】 jar包下载地址:【tokenizers-***.jar下载地址(官方地址+国内镜像地址).txt】 Maven依赖:【tokenizers-***.jar Maven依赖信息(可用于项目pom.xml).txt】 Gradle依赖:【tokenizers-***.jar Gradle依赖信息(可用于项目build.gradle).txt】 源代码下载地址:【tokenizers-***-sources.jar下载地址(官方地址+国内镜像地址).txt】 # 本文件关键字: tokenizers-***.jar***文档.zip,java,tokenizers-***.jar,ai.djl.huggingface,tokenizers,***,ai.djl.engine.rust,jar包,Maven,第三方jar包,组件,开源组件,第三方组件,Gradle,djl,huggingface,中文API文档,手册,开发手册,使用手册,参考手册 # 使用方法: 解压 【tokenizers-***.jar***文档.zip】,再解压其中的 【tokenizers-***-javadoc-API文档-中文(简体)版.zip】,双击 【index.html】 文件,即可用浏览器打开、进行查看。 # 特殊说明: ·本文档为人性化翻译,精心制作,请放心使用。 ·只翻译了该翻译的内容,如:注释、说明、描述、用法讲解 等; ·不该翻译的内容保持原样,如:类名、方法名、包名、类型、关键字、代码 等。 # 温馨提示: (1)为了防止解压后路径太长导致浏览器无法打开,推荐在解压时选择“解压到当前文件夹”(放心,自带文件夹,文件不会散落一地); (2)有时,一套Java组件会有多个jar,所以在下载前,请仔细阅读本篇描述,以确保这就是你需要的文件; # Maven依赖: ``` <dependency> <groupId>ai.djl.huggingface</groupId> <artifactId>tokenizers</artifactId> <version>***</version> </dependency> ``` # Gradle依赖: ``` Gradle: implementation group: 'ai.djl.huggingface', name: 'tokenizers', version: '***' Gradle (Short): implementation 'ai.djl.huggingface:tokenizers:***' Gradle (Kotlin): implementation("ai.djl.huggingface:tokenizers:***") ``` # 含有的 Java package(包): ``` ai.djl.engine.rust ai.djl.engine.rust.zoo ai.djl.huggingface.tokenizers ai.djl.huggingface.tokenizers.jni ai.djl.huggingface.translator ai.djl.huggingface.zoo ``` # 含有的 Java class(类): ``` ai.djl.engine.rust.RsEngine ai.djl.engine.rust.RsEngineProvider ai.djl.engine.rust.RsModel ai.djl.engine.rust.RsNDArray ai.djl.engine.rust.RsNDArrayEx ai.djl.engine.rust.RsNDArrayIndexer ai.djl.engine.rust.RsNDManager ai.djl.engine.rust.RsSymbolBlock ai.djl.engine.rust.RustLibrary ai.djl.engine.rust.zoo.RsModelZoo ai.djl.engine.rust.zoo.RsZooProvider ai.djl.huggingface.tokenizers.Encoding ai.djl.huggingface.tokenizers.HuggingFaceTokenizer ai.djl.huggingface.tokenizers.HuggingFaceTokenizer.Builder ai.djl.hu

  • 电力系统PMU优化配置研究——基于MATLAB的多种算法实现与性能比较

    内容概要:本文详细探讨了电力系统中PMU(相量测量单元)的优化配置问题,旨在确保系统完全可观测的同时尽量减少PMU的数量。作者介绍了六种不同的算法,包括模拟退火、图论方法、递归安全N算法等,并通过MATLAB实现了这些算法。通过对IEEE标准测试系统的实验,展示了各种算法在不同规模系统中的表现。文中不仅提供了具体的MATLAB代码实现,还分享了许多实用的经验技巧,如邻域解生成、退火速率设置、拓扑排序等。 适合人群:从事电力系统研究的技术人员、研究生以及对组合优化感兴趣的科研工作者。 使用场景及目标:适用于电力系统状态估计、故障诊断等领域,帮助研究人员和工程师找到最优的PMU配置方案,提高系统的可靠性和经济性。 其他说明:文章强调了在实际应用中需要注意的问题,如变压器支路的影响、节点编号不连续等问题,并推荐了几篇相关领域的经典文献供进一步学习。此外,还提到了一些有趣的发现,如某些中间节点装PMU反而能减少总数。

  • spring-ai-mistral-ai-1.0.0-M5.jar中文文档.zip

    # 压缩文件中包含: 中文文档 jar包下载地址 Maven依赖 Gradle依赖 源代码下载地址 # 本文件关键字: jar中文文档.zip,java,jar包,Maven,第三方jar包,组件,开源组件,第三方组件,Gradle,中文API文档,手册,开发手册,使用手册,参考手册 # 使用方法: 解压最外层zip,再解压其中的zip包,双击 【index.html】 文件,即可用浏览器打开、进行查看。 # 特殊说明: ·本文档为人性化翻译,精心制作,请放心使用。 ·只翻译了该翻译的内容,如:注释、说明、描述、用法讲解 等; ·不该翻译的内容保持原样,如:类名、方法名、包名、类型、关键字、代码 等。 # 温馨提示: (1)为了防止解压后路径太长导致浏览器无法打开,推荐在解压时选择“解压到当前文件夹”(放心,自带文件夹,文件不会散落一地); (2)有时,一套Java组件会有多个jar,所以在下载前,请仔细阅读本篇描述,以确保这就是你需要的文件;

  • 三菱FX1s与台达MS300变频器基于Modbus RTU通讯的实战指南

    内容概要:本文详细介绍了三菱FX1s PLC与台达MS300变频器通过Modbus RTU协议实现通讯的方法。首先,文中列举了所需的硬件设备及其连接方法,确保PLC与变频器能够正常通信。接下来,针对频率设定、频率读取及正反转启停控制三大主要功能进行了详细的编程讲解,提供了具体的梯形图代码示例并解释了每一步的作用。此外,还涉及到了触摸屏(MCGS和威纶通)的配置步骤,使用户可以通过触摸屏方便地操作变频器的各项功能。最后,作者分享了一些实用的小技巧和常见错误避免方法,帮助使用者快速解决问题,提高工作效率。 适合人群:从事自动化控制系统集成的技术人员,尤其是那些需要将三菱PLC与台达变频器进行互联的工程师。 使用场景及目标:适用于工业自动化领域的项目实施过程中,旨在帮助技术人员掌握三菱FX1s与台达MS300变频器之间的高效通信技术,从而更好地完成系统集成任务。 其他说明:文中不仅包含了详细的理论知识和技术要点,还有丰富的实践经验分享,有助于读者全面理解和应用相关技术。同时,提供的完整工程文件可以直接应用于实际项目中,极大地节省了开发时间和成本。

Global site tag (gtag.js) - Google Analytics