全文连接
http://click.aliyun.com/m/22761/
有关数据和数据分析的高谈阔论比比皆是。不断有人告诫各大公司要规划恰当战略来收集分析大数据,并警告不这么做可能带来的不良后果。像《华尔街日报》近日就提到公司享有客户数据这样一个大宝藏,却大都不知道该如何利用。本文将探讨其中缘由。有公司尝试从巨大的数据中获取实际可用的信息,通过与他们合作,我们归纳了管理者在数据应用上的四个常规错误。
◆ ◆ ◆
错误一:没有理解融合的概念
阻碍大数据发挥价值的第一大挑战就是兼容性和融合性。大数据的一个主要特点是其来源多样。然而,如果数据形式不相同,或难以整合,则其来源的多样性将使公司难以削减开支,也无法为客户创造价值。例如,在我们和一个合作项目中,该公司拥有丰富的数据,记录客户的交易量和忠诚度,以及专门的在线浏览行为数据,但是鲜少交叉检索这两类数据来判断某种浏览行为即为交易达成的前兆。面对这种挑战,公司创建了“数据湖”来容纳大量非结构性数据。但是,这些公司能够加以利用的数据目前都显得杂乱无章,只不过是一些以文本,也就是说,当这些数据只是普通的二进制数字时,要将它们井然有序地存储起来非常困难。要将来源不同的它们整合起来更是难上加难。
◆ ◆ ◆
错误二:没有认识到非结构化数据的局限性
阻碍大数据发挥价值的第二大挑战是其非结构化的特性。对文本数据的挖掘已经有了特别的进展,其语境和技术所带来的认识与结构化数据类似,只是其它形式的数据如视频仍不易于分析。举个例子,虽然拥有最先进的人脸识别软件,有关当局仍然无法从大量视频中识别出波士顿马拉松爆炸案中的两名嫌疑人,因为该软件尚在处理从不同角度拍摄的嫌疑人的照片。
虽然从非结构性数据获取信息面临挑战,但是各公司在利用这些数据初步提升分析已有数据的速度和精确度上取得了显著成绩。比如,在石油和天然气勘探中,人们就用大数据来优化正在进行的操作,以及针对地震钻井的数据分析。尽管他们所使用的数据在速度、种类和体积上都有可能增加,最终这些数据还是用于同一个目的。总之,一开始就希望通过利用非结构性数据形成新的研究假设是站不住脚的,除非各公司通过“实践”有了这种专业能力,能利用非结构性数据优化某个问题答案。
◆ ◆ ◆
错误三:以为关联分析意义重大
第三大挑战——我们认为是阻碍大数据价值的最重要的影响因素——是观测数据的大量重叠使其因果关系难以明确。大规模数据集往往包含众多相似或完全一致的信息,直接导致错误的关联分析,误导管理者的决策。近日《经济学人》指出“在大数据时代,相互关系往往是自己浮现出来的”,《斯隆管理评论》在博客中强调虽然很多公司都能接触到大数据,但是这些数据并不“客观”,因为问题在于要从中提炼出值得采取行动的信息。同样,典型的用于分析数据的机器学习算法所进行的关联分析并不一定会提供原因分析,因而不会给出可执行的管理意见。也就是说,让大数据有利可图的技巧在于能够从仅仅观测到相互关系转变为正确鉴别何种关联为因果形式,可以作为战略举措的基础。要做到这一点就必须超越大数据。
谷歌趋势是大数据的经典范例,它利用谷歌搜索词条整合记录。然而,它也说明了仅仅用于关联分析的数据是毫无意义的。起初,研究人员称数据可以用于反映流感的传播。然而后来,研究人员发现因为数据体现的是过去,使用这些数据只能在现状与过去模式相关的情况下,稍微改善应对行为。
举个更具体的例子,假设一个鞋业销售商向曾浏览其网站的消费者投放广告。原始数据分析认为消费者看到这些广告会更愿意购买鞋子。可是,这些消费者在看到广告之前就已经对该销售商表现出了兴趣,因而比普通人更愿意进行交易。这个广告有效吗?很难说。实际上,这里的大数据并没有考虑营销传播有效性的因果推论。要知道该广告是否有效,销售商需要进行随机检测或试验,选取一部分消费者不接触这个广告。通过比较看了广告和没看广告的消费者之间的购买率,公司才能确定是否看到广告能让消费者更愿意消费。这个案例中,价值主要不是通过数据创造的,而是通过设计、执行以及阐释重要的试验来创造的。
这是个试验,不是分析观测到的大数据集来帮助公司了解一段联系到底是仅仅相关还是因为反应潜在的因果关系而变得可以赖以作出判断。虽然对于管理者来说,哪怕仅利用记录消费者行为一拍字节的数据来提升效益都很困难,但是比较参与了营销活动的客户和没有参与的客户——根据试验结果——能够让营销人员推论这个活动是否有利可图。
开展实地试验,得出正确的结论,采取恰当的应对措施,都不是轻而易举的事。但是成功的公司已经有能力来设计、开展重要的实地试验,并对其结果评估,采取针对性措施。正是这种“试验加学习”的环境,以及对其能否加以推广的理解和认识之上采取行动的能力,才让大数据有价值。
只是,由于越来越多的数据样本收益递减,这样的试验并不一定需要大数据。比如:谷歌透露说其往往用有效数据的0.1%中的随机样本来进行数据分析。确实,近日刊登的一篇文章显示大数据的大实际上是不利的,因为“数据库越大,就越容易支持你提出的假设。”换句话说,因为大数据提供重叠的信息,公司能从整个数据集,也能从其千分之一的数据集中获取同样的信息。
◆ ◆ ◆
错误四:低估了劳动力技术需求
全文连接
http://click.aliyun.com/m/22761/
分享到:
相关推荐
* 数据挖掘是重要的手段,随着计算机技术发展和数据分析理论的更新,当前的数据分析逐步成为机器语言、统计知识两个学科的交集 十一、信息处理: * 信息处理是指基于查询,可以发现有用的信息 * 信息处理的回答...
"威胁情报"是关于当前和潜在威胁、威胁参与者、威胁技术和动机等信息的收集和分析,它对于理解安全现状至关重要。 在"安全架构漏洞管理"方面,常规渗透测试和代码审查是常用的技术,但它们都有各自的局限性。代码...
通过分析大量文本数据,话题建模可以揭示关键议题和风险领域,帮助管理者快速定位最重要的风险点。 2. 场景#2:如何使用NLP识别潜在或新兴风险?NLP能够理解并解析复杂文本,揭示潜在风险的迹象,从而提前预警,...
这个数据集提供了一个深入研究UEBA技术的平台,可以帮助研究人员和从业者理解UEBA的工作原理,测试新的算法,以及评估不同策略在实际场景中的表现。通过深入分析和挖掘,我们可以更好地利用UEBA提升网络安全防护能力...
总的来说,WinPcap_4_1_beta.zip是一个包含WinPcap Beta版本的压缩文件,为用户提供了一个强大而灵活的网络数据包操作平台,适用于各种网络相关的开发和分析任务。通过安装和阅读Readme文件,用户可以更好地理解和...
用于识别已发生错误的类型, 错误第二部分是被括号括起来的四个数字集, 表示随机的开发人员定义的参数(这个参数对于普通用户根本无法理解, 只有驱动程序编写者或者微软操作系统的开发人员才懂). 第三部分是错误名. ...
学生可以借助大数据独立思考,进行深层次的数据分析研究,而教师的角色转变成了引领和辅助,为学生提供个性化和多元化的服务。在数据资源的共享交流之下,学生从知识的被动接受者变为主动的知识吸收者,教师则成为...
- 数据恢复:无论是由于自然灾害、硬件故障还是人为错误导致的数据丢失,都必须有可靠的数据恢复机制。这需要企业制定全面的数据备份计划和灾难恢复策略,确保关键业务数据可以迅速恢复。 - 安全响应:面对安全事件...
在这个“juzhenchengfa.rar”的压缩包中,包含的是一个关于数据结构课程设计的报告,主要关注的是稀疏矩阵及其乘法操作。这份报告详细阐述了在实际应用中,如何处理那些大部分元素为零的大型矩阵,即稀疏矩阵。 ...
离群点指的是那些偏离常规数据分布的极端值,它们可能是由噪声或错误导致的,但有时候也隐藏了重要的信息。正确地识别和利用离群点信息可以帮助管理者发现潜在的问题或机会。例如,在非工作时段内异常高的照明或空调...
在MATLAB中进行数学建模是一项重要的技能,尤其对于初学者而言,理解并掌握调试技巧是必不可少的。MATLAB作为一种强大的数值计算环境,其错误分析和调试能力对提高编程效率和解决问题至关重要。在这个基础篇中,我们...
该模型依据网管系统从数据采集、处理到应用的过程,将数据质量问题的形成过程划分为三个阶段:数据的采集、数据的转换和汇总、数据的分析和应用。 - **底层**:采用灵活的数据采集机制对数据源质量加以控制。 - **...
### 图书管理系统需求分析报告知识点 #### 一、引言 **1.1 编写目的** 本报告的编写旨在明确图书管理系统软件的功能需求和技术规格,确保开发过程能够准确无误地按照用户的要求进行。软件需求分析是软件工程中的...
研究选取了2015年和2016年的数据,将常规管理与HFMEA管理进行了对比。对照组仅采用常规管理,而观察组则在常规管理基础上引入HFMEA。通过对优先风险值(RPN)的计算,可以量化每个潜在错误的风险程度,RPN由发生频率...
7. **Excel在风险管理中的应用**:Excel是进行风险管理和数据分析的强大工具。它可以用于创建数据透视表以汇总信息,使用公式和函数进行复杂计算,建立图表来直观展示风险分布,以及设置数据验证规则来防止输入错误...
- 管理人员:进行数据分析,辅助决策。 3. **运行环境**: - 硬件:台式机或笔记本电脑,至少5MB内存。 - 软件:Windows操作系统。 4. **功能需求**: - 身份验证:确保用户身份安全。 - 基本信息查询:查找...
R语言是数据分析领域的首选工具之一,它强大的统计计算和可视化能力使得它在科研、商业分析等领域广泛应用。 首先,本书会引导读者熟悉R语言的基本类型,包括数值型(如整数和浮点数)、字符型、逻辑型以及向量、...
最终,合规指标的优化不仅仅是一个技术问题,它还需要与高级管理人员及其利益相关者的密切合作和讨论,确保合规工作能够满足业务需求并实现组织目标。通过优化合规有效性指标,组织不仅能够更好地防范、识别和应对...
文件系统源代码中的大量方法是为了处理文件系统中可能出现的各种复杂情况,例如错误处理、数据同步、资源管理等。这些方法确保了文件系统的稳定性和可靠性。 ##### 为什么需要红黑树? 在JFFS2中使用红黑树是为了...
在质量管理中,常见的数据分析方法包括统计分析、模式识别、趋势预测等。统计分析方法如均值、标准差、方差等,用于描述数据集的基本特征。模式识别方法如聚类分析、关联规则挖掘等,用于发现数据集中的模式和关联性...