《删除:大数据取舍之道》
[英]维克托·迈尔-舍恩伯格 著
袁杰 译
浙江人民出版社
大数据是最近的业界的热点;而本书作者也是公认的大数据专家,同时,他的《大数据时代》则被认为是开大数据系统研究的先河之作。
全书整体上介绍在大数据时代,信息保存需要进行取舍,不能无限制地进行保存;同时从信息保存的发展,介绍全方位“记忆”的发展;以及近年来,越来越多因为的隐私信息保存不当而导致的伤害性事件。前半部分,基本上都是在讲这个;后半部分,针对数字化记忆和信息安全,提出了一些建议,提倡即使在大数据时代,也需要给信息一个存储期限,“让遗忘回归常态”。
对于“对信息进行取舍而不是无差别的保存”,我是认同的。人在缺少选择的时候,会觉得很苦恼;然而在面对过多选择的时候,也会很苦恼。随着海量数据的产生,如果不进行适当的取舍,那么生活中必然会面对越来越多的参考和抉择,烦恼由此而生。同时,从一个自然人的角度来看,我也不希望我的上网记录被其他的人进行无限制的使用和传播,特别是标注了个人身份的信息。如果人人都能看到这些东西,那么个人和动物园中的动物也就差不多了;不仅仅是围观,信息的滥用也会带来伤害,各种“人肉搜索”的案例,不管是好的、坏的,实在是太多了,就不再进行一一举例了。如果这样的伤害一再出现,而且无法避免,那么用户可能会采用一些其他的手段保证自己的行为是“良好”的;这也是一种造假,人人都会表现出自己所不具备的特质;在这样一种缺乏信任的环境中,进一步的,互联网的开放特性就会得到损害。这是一个生态系统,其中的事物是相互影响的……
在互联网行业的广告、搜索、推荐业务中,个人行为数据是进行结果排序的重要依据。算法设计人员总是希望能够获得尽可能多的用户信息,这样就可以给出更贴近用户的结果,从而得到更高的效益。这些业务中,最近也开始进行用户行为的处理,过滤一些敏感和体验不好的结果,比如计生、殡葬相关的。但是也是仅仅进行过滤,对于用户信息的处理是否进行删除或者使用其他的手段保证用户的行为不会被误用,这样的信息还没有接触到。
从技术方面讲,目前在数据的使用中,对于采集到的各种信息,我们用到的时候,会根据相应的需求进行采集、清洗,从而选择出我们所需要的;但是对于原始的采集信息,我们是不会进行删除的:首先,也许有其他人也会使用这份数据;其次,你无法预测业务的变化,如果需求进行了变更,数据选择的方法和清洗的条件也会发生变化,如果没有最原始的数据,新的业务就无法进行下去。同样,目前在数据库的使用中,如果我们需要删除某个记录,采用的最多的方法,是修改这个记录的状态,而不是真正将记录从数据库中删除。一方面是考虑到需要将记录永久的保存下来,留待后续的查用;另一方面,不确定该记录的删除会不会带来副作用,其他依赖这个表的业务会不会收到影响。所以,在信息保存的实际操作阶段,实际的操作人员很少会进行“删除”操作。
在书中,由于“全方位记忆”导致的遗忘缺失,进而引出的问题,主要还是隐私信息的问题,涉及到个人隐私和公共隐私。目前国内对于隐私的诉求,好像不是特别强烈;但是在互联网方面,用户对于自己的浏览行为的记录还是比较敏感的。对于自己的浏览记录,一般都会主动删除或者要求服务方进行删除,这些我个人也接触过一些例子。不过互联网采集用户行为进行统计分析和数据挖掘,确实会有一些很有价值的信息被发掘出来,所以个人倾向于文中描述的那样,在这些行为记录中,消除具体的用户信息之后,保留共性的信息。另外,在大数据的领域中,用户行为信息和其他隐私信息是很重要的一部分,但是大数据也不是仅仅包含这些内容,其他领域的数据处理的取舍之道,还有待探索与研究。
总的来说,信息的删除是必要的,但是如何去操作,还有大量的工作要做,还有很长的路要走。
相关推荐
基于springboot教育资源共享平台源码数据库文档.zip
linux开发篇,配套视频:https://www.bilibili.com/list/474327672?sid=4493702&spm_id_from=333.999.0.0&desc=1
ReadEra 这个阅读应用能够打开下列任何格式的文档: EPUB, PDF, DOC, RTF, TXT, DJVU, FB2, MOBI, 和 CHM. 基本上来说,你可以用它阅读你的设备内存中的任何书籍或者文本文档。 这个应用与划分成章节的文档兼。,有一个书签功能,可以在你阅读的时候,自动保存你的进度。另外,它让你更改页面模式,从几种不同的主题中进行挑选(夜间,白天,棕黑色调,还有控制台)。
软件环境:KEIL4 硬件环境:STM32单片机+舵机 控制原理:通过控制输出信号的占空比调节舵机旋转的角度
基于springboot仓库管理系统源码数据库文档.zip
酒店管理系统源码C++实现的毕业设计项目源码.zip,个人大四的毕业设计、经导师指导并认可通过的高分设计项目,评审分98.5分。主要针对计算机相关专业的正在做毕设的学生和需要项目实战练习的学习者,也可作为课程设计、期末大作业。 酒店管理系统源码C++实现的毕业设计项目源码.zip,酒店管理系统源码C++实现的毕业设计项目源码.zip个人大四的毕业设计、经导师指导并认可通过的高分设计项目,评审分98.5分。主要针对计算机相关专业的正在做毕设的学生和需要项目实战练习的学习者,也可作为课程设计、期末大作业。酒店管理系统源码C++实现的毕业设计项目源码.zip酒店管理系统源码C++实现的毕业设计项目源码.zip酒店管理系统源码C++实现的毕业设计项目源码.zip,个人大四的毕业设计、经导师指导并认可通过的高分设计项目,评审分98.5分。主要针对计算机相关专业的正在做毕设的学生和需要项目实战练习的学习者,也可作为课程设计、期末大作业。酒店管理系统源码C++实现的毕业设计项目源码.zip,个人大四的毕业设计、经导师指导并认可通过的高分设计项目,评审分98.5分。主要针对计算机相关专业的正在做毕
58商铺全新UI试客试用平台网站源码
springboot vue3前后端分离 基于SpringBoot+Vue的轻量级定时任务管理系统.zip
该资源内项目源码是个人的课程设计、毕业设计,代码都测试ok,都是运行成功后才上传资源,答辩评审平均分达到96分,放心下载使用! ## 项目备注 1、该资源内项目代码都经过严格测试运行成功才上传的,请放心下载使用! 2、本项目适合计算机相关专业(如计科、人工智能、通信工程、自动化、电子信息等)的在校学生、老师或者企业员工下载学习,也适合小白学习进阶,当然也可作为毕设项目、课程设计、作业、项目初期立项演示等。 3、如果基础还行,也可在此代码基础上进行修改,以实现其他功能,也可用于毕设、课设、作业等。 下载后请首先打开README.md文件(如有),仅供学习参考, 切勿用于商业用途。
4D毫米波雷达点云数据处理方法研究.caj
S M 2 2 5 8 X T 量产工具供大家下载使用
基于springboot的文物管理系统源码数据库文档.zip
基于springboot的电影院售票管理系统源码数据库文档.zip
基于Java web 实现的仓库管理系统源码,适用于初学者了解Java web的开发过程以及仓库管理系统的实现。
美容美发项目,使用django框架,前后端一体化项目
在线票务:2023年中国在线票务行业市场规模约为24.99亿元,挖掘市场蓝海新机遇 在数字浪潮的席卷下,传统的票务销售模式正经历着前所未有的变革。纸质门票逐渐淡出人们的视野,取而代之的是便捷、高效的数字和移动票务。这一转变不仅为消费者带来了前所未有的购票体验,更为在线票务平台开辟了广阔的发展空间和市场机遇。随着国民经济的持续增长和文体娱乐行业的蓬勃发展,中国在线票务行业正站在时代的风口浪尖,等待着每一位有志之士的加入。那么,这片蓝海市场究竟蕴藏着怎样的潜力?又该如何把握机遇,实现突破?让我们一同探索。 市场概况: 近年来,中国在线票务行业市场规模持续扩大,展现出强劲的增长势头。据QYResearch数据显示,2023年中国在线票务行业市场规模约为24.99亿元,尽管受到宏观经济的影响,市场规模增速放缓,但整体趋势依然向好。这一增长主要得益于国民人均收入的不断提高、电影及演出行业的快速发展以及政府政策的支持。例如,2023年财政部、国家电影局发布的《关于阶段性免征国家电影事业发展专项资金政策的公告》,为电影行业注入了强劲动力,进而推动了在线票务市场规模的扩大。 技术创新与趋势: 技术进步
基于SpringBoot的养老院管理系统源码数据库文档.zip
该资源内项目源码是个人的课程设计、毕业设计,代码都测试ok,都是运行成功后才上传资源,答辩评审平均分达到96分,放心下载使用! ## 项目备注 1、该资源内项目代码都经过严格测试运行成功才上传的,请放心下载使用! 2、本项目适合计算机相关专业(如计科、人工智能、通信工程、自动化、电子信息等)的在校学生、老师或者企业员工下载学习,也适合小白学习进阶,当然也可作为毕设项目、课程设计、作业、项目初期立项演示等。 3、如果基础还行,也可在此代码基础上进行修改,以实现其他功能,也可用于毕设、课设、作业等。 下载后请首先打开README.md文件(如有),仅供学习参考, 切勿用于商业用途。
内容概要:本文档是一份详细的Go语言教程,从基础概念介绍到高级主题均有覆盖。主要内容包括Go语言的基础语法、数据类型、控制结构、函数、结构体、接口和并发编程等方面。通过具体示例介绍了如何使用Go语言进行开发。 适合人群:初学者和有一定经验的程序员都可以从这篇教程中受益,特别是那些想要快速掌握Go语言并应用于实际项目的开发者。 使用场景及目标:适用于初学者系统学习Go语言的基础知识和常用功能;也可以作为已有开发经验者的参考资料,帮助他们解决具体的编程问题,提高开发效率。 其他说明:本教程不仅包含了Go语言的基本知识点,还重点讲解了其独特的并发编程模型。读者在学习过程中应该注重理论与实践相结合,通过实际编写代码来加深理解和记忆。
基于springboot计算机基础网上考试系统源码数据库文档.zip