请关注新浪微博 账号:大数据进行时(
http://weibo.com/u/3272022684)
最近Gartner发布了2013年度BI和分析的魔力四象限图,同时Wikibon也发布了2013年大数据市场预测,两份报告都明确指出,随着分析正在成为企业IT的核心,昔日的BI-ETL-EDW分析范型已经完全落伍,不再适用。
2013开年不久,一连串的重大事件的发生标志着大数据和分析领域正在加速演进,对于数据分析专业人士和企业管理者来说,2013年是大数据进入企业应用的关键一年。
近日Alteryx公司总裁乔治马修(George Mathew,Twitter帐号@gkm1)与大数据领域的著名专家Mayank Bawa、Mike Olson和Scott Yara就数据分析的传统范型(BI-ETL-EDW)即将被新的分析范型取代达成共识,几位专家认为全新的数据分析平台将消除当前分析软件在设计和实施方面的延迟和低效率,从根本上重新思考和定义三大阻碍企业7数据分析应用的关键问题:数据管理、分析透明度以及用户应用。
以下是马修在博客中对新数据分析范型三大演进方向的解读,IT经理网编译整理如下:
一、数据管理
Hadoop已经成为企业管理大数据的基础支撑技术。最近随着Greenplum Pivotal HD、Hortonworks Stinger和Cloudera的Impala的发布,Hadoop的技术创新速度正在加快,上述Hadoop项目传递出一个非常明确的信号:主要的Hadoop发行商想要在Hadoop HDFS之上提供实时、互动的查询服务。这个趋势将两个领域的杰作整合到了一起:众所周知的SQL查询处理与具备指数级扩展能力的HDFS存储架构。参考阅读:Hadoop发行版升级,NoSQL的未来是SQL?
二、去黑箱化
预测分析是管理者进行数据化决策的关键。目前预测和统计分析领域已经已经有很多技术可以帮助企业洞察不远的未来。但预测分析眼下面临的的最大问题是“黑箱”化。随着企业领导越来越多地以来预测分析技术做出重大商业决策,预测分析技术需要去黑箱化:包括应用自描述数据沿袭,增加对底层数学和算法解释等。“去黑箱化”有利于企业管理者学会彻底驾驭数据分析工具,不但看到数据分析结果,还知道分析是如何得来的,分析工具的设计原理等,这有助于管理者增加对预测分析的信心,而不是过去那样完全依靠“信仰”。
三、应用普及
即使实现了分析的去黑箱化,企业数据分析应用在企业中的部署依然面临以下几个方面的挑战:发布可复用应用,创建最佳实践、组织范围内的横向协作,无缝重组模型等。在最终用户(员工)中的应用普及是数据分析成功的关键。例如建设一个专门提供分析应用的企业移动应用商店App Store往往能大大加快数据分析的应用普及。
新数据分析范型的重要特征:
新的数据分析范型是目标导向的,不关心数据的来源和格式,能够无缝处理结构化、非结构化和半结构化数据。能够输出有效结果;能够提供去黑箱化的预测分析服务,能够面向更广泛的普通员工快速部署分析应用。
最近Gartner发布了2013年度BI和分析的魔力四象限图,同时Wikibon也发布了2013年大数据市场预测,两个报告都明确指出,随着分析正在成为企业IT的核心,昔日的BI-ETL-EDW分析范型已经完全落伍,不再适用。新的分析范型正在崛起,以下是我们能看到的未来趋势:
Hadoop(和NoSQL)正在颠覆我们对PB级别大数据的管理方式。
R和Stata的崛起,正在冲击传统分析学术圈的的黑箱式分析方法,这也代表着商业世界的发展趋势。
分析应用将不再是数据科学家的专利,更多分析应用将以预先打包的内容和应用发送到分析人士和企业员工的手中。
转自
http://news.xinhuanet.com/info/2013-04/16/c_132311587.htm
大数据分析,请看下篇,R语言之旅
http://quasimodo-es.iteye.com/blog/1851000
分享到:
相关推荐
例如,我们不仅能够进行基于条件的选择("Select"),还可以实现海量内容的主题抽取;而基于条件的“Group by”可以用于计算语义内容的相似度;“Sort”则可以衡量关键词在特定主题上的倾向性,这对于理解用户的消费...
6. **机器学习与人工智能**:阿里巴巴的大数据平台也是其AI技术发展的基础,书中会讲述如何利用大数据进行机器学习训练,实现智能推荐、风险控制、客户服务等业务场景的自动化和智能化。 7. **大数据实战案例**:...
当涉及到大数据测试时,性能和功能测试是关键。在大数据测试中,QA工程师使用集群和其他组件来验证对TB级数据的成功处理。因为处理非常快,所以它需要高水平的测试技能。处理可以是三种类型:批量、实时、交互。...
设计时应考虑模块化、可扩展性、易于维护和复用性。例如,可以采用Page Object Model模式组织测试代码,使用断言库进行结果验证,通过测试报告展示测试结果,同时利用持续集成工具如Jenkins进行自动化构建和测试。 ...
标题中的“平安人寿_大数据进行机器学习”暗示了这是一个关于如何在保险行业内利用大数据进行机器学习的案例研究。在这个主题中,我们将深入探讨大数据的概念、它在保险业的应用,以及机器学习如何作为工具来解析...
4.2.4章节提及了处理大数据时面临的性能挑战和管理需求。4.3.2章节讲解了抽取、转换和加载(ETL)技术在数据集成中的作用。4.3.3章节涉及数据仓库和数据集市的构建,以及它们在大数据商务智能中的角色。4.3.4章节...
总的来说,淘宝等电商平台利用大数据进行用户画像构建、商品推荐、营销策略优化,极大地提升了运营效率和用户体验。大数据不仅改变了商业模式,也正在塑造一个更加个性化、智能化的消费环境。在这个时代,企业必须...
进行大数据测试时,需要具备足够存储、分布式集群、高性能硬件资源等基础环境。 总之,大数据测试是一门技术密集型的工作,不仅需要掌握各种大数据工具和框架,还要熟悉数据处理流程,具备高效的测试技术和策略,...
构建大数据平台时,首先要深入了解客户需求。在这个过程中,业务驱动和技术驱动的辩证关系至关重要。市场经验表明,尽管技术具有潜力,但如果不能与业务需求紧密对接,再先进的技术也难以发挥其应有的市场优势。彼得...
在处理大数据时,还需要考虑数据的治理、安全和策略,以确保数据的质量和合规性。 构建大数据解决方案时,需要面对的挑战是如何选择合适的架构。IBM提供了一个基于模式的方法,通过结构化的方式简化这一过程。首先...
在处理大数据时,Hadoop是一个重要的开源框架。Hadoop由Apache基金会开发,它允许分布式处理大规模数据集,具有高容错性和可扩展性。Hadoop主要由两个核心组件组成:HDFS(Hadoop Distributed File System)和...
例如,你可以用`cat`命令连接多个文本文件,`grep`过滤特定行,`awk`进行列操作,甚至使用`sed`进行字符串替换,这些都是处理大数据时的常用工具。 其次,shell脚本可以配合Hadoop或Spark等大数据处理框架。Hadoop...
传统方法中对大数据的采样技术采用奈奎斯特采样定律,当大数据的特征信息出现非线性特性时,采样精度不高。提出一种基于聚类权重调度的大数据采样技术,进行大数据的分布式数据结构分析和时间序列模型构建,采用模糊C...
其次,大数据分析是采用数据挖掘、机器学习等方法,对大数据进行分析和挖掘,帮助企业和组织提高业务效率和降低成本。 第三,大数据应用是采用大数据技术,对企业和组织的业务模式和商业模型进行变革,提高业务效率...
而不同的个人信息对应不同的法律保护规则,因此有必要对医疗大数据进行法律分类。 分类的前提是确定分类标准。鉴于本文旨在探讨医疗大数据的法律规制,而法律规制的目的在于平衡个人权利与他人权利,即所谓"群己权界...
通过对每个客户的消费习惯、偏好等数据进行分析,企业能够提供更加个性化的产品和服务,满足不同客户的具体需求。 #### 三、全样本原理 传统统计学中的抽样调查方法在大数据时代面临着新的挑战。随着数据量的急剧...