随着大数据[注]时代的到来,Hadoop声名鹊起,这个开源的分布式处理架构似乎可以处理大数据的任何问题。但长期以来,包括即席查询在内的实时分析一直是Hadoop的痛点。
Hadoop可以处理大规模数据集,包括结构化数据、非结构化数据和半结构化数据,但Hadoop的是按照批量处理系统来设计的,这也就限制了它的反应速度。
数字广告公司Rubicon Project负责技术运营的副总裁And Jan Gelin表示,在线广告经纪人非常需要快速的分析。
Rubicon Project为广告客户提供平台,通过该平台,广告客户在竞标前能够看到网站访问者的信息,这样就能保证广告只投放到了有兴趣的用户那里。Gelin表示,整个流程包含很多分析,这些分析必须在不足1秒钟的时间内全部完成。
广告竞标平台的搭建,很大程度上依赖于Hadoop。但Gelin表示,把实时分析技术和Hadoop结合起来才是关键。Rubicon公司用Storm复杂事件处理引擎来捕获和快速分析广告竞标流程中的大量数据。之后Storm将这些数据发送到MapR Technologies公司的Hadoop集群中。Hadoop集群主要用于将数据转化到更传统的分析应用,比如商务智能报表。即使在这一阶段,转化过程完成之后,也有很多信息加载到Greenplum分析型数据库中。
Hadoop的实时分析
Gelin表示,公司每天生产的绝对数据量当然要靠Hadoop的处理能力;但对于数据分析,你不得不承认Hadoop是一个批量处理系统。很多运行在Hadoop上的其他技术才是实时分析工具。
有些Hadoop供应商竭力回避Hadoop的实时分析障碍。Cloudera在四月份发布了它的Impala查询引擎,声称可以在Hadoop数据上运行交互式SQL查询语言,实现近实时分析。EMC和VMWare合资成立的新公司Pivotal致力于数据管理和分析,它在三个月后发布了相似的查询引擎Hawq。甚至专注于捕捉机器产生的数据流的Splunk也加入了进来,它推出的Hadoop数据分析工具Hunk在十月末发行。
十月份发布的Hadoop 2.0向应用程序开放了Hadoop系统。Forrester调查公司的分析师Mike Gualtieri认为,随着这些新工具的发布和研发,Hadoop终会解决实时分析的难题。其中一个重要的因素在于,供应商和Hadoop用户都迫切希望在分析应用中实现实时或近实时分析技术。
Gualtieri表示:“Hadoop本质上是一个批处理环境。然而,由于其分布式结构设计,和很多应用案例不得不把数据放到Hadoop上,很多供应商和最终用户都希望在Hadoop上添加实时分析或即席查询。”
发展障碍
Gualtieri认为阻碍Hadoop实现实时分析的主要有两点。首先,大部分的新的Hadoop查询引擎运行速度没能像主流关系型数据库中的查询那样快。在Impala和Hawq这样的工具中,最终用户可以用SQL语言写查询指令,在Hadoop集群执行的时候,这些指令要翻译成MapReduce语言。整个过程是很慢的,远逊于直接在关系型数据库中运行SQL查询。
其次,与关系型数据库相比,Hadoop目前还是一个只读的系统。数据一旦写入Hadoop分布式文件系统(HDFS),用户很难插入、删除或修改存储的数据。
虽然存在着这些困难,但Gualtieri认为这些是可以克服的。Hadoop 2就包含了把数据附加到HDFS文件的能力。
Gartner的分析师Nick Heudecker认为,虽然新查询引擎不支持实时数据分析功能,但它更平民化,没有技术背景的用户也可以访问和分析存储在Hadoop中的数据。因为MapReduce开发人员不需要再写查询指令,所以与运行Hadoop分析相关的时间和成本就大大减少了。
IT服务供应商OpenSource的咨询顾问Patricia Gorla表示,组织需要仔细考虑是否要部署这样的工具。Hadoop的可扩展性和承受能力是很诱人,但它也可能将业务引向歧途。组织需要了解哪些是最适合Hadoop的,而不是让Hadoop去适合一个它本不属于的系统架构。要记住,“Hadoop只擅长它所擅长的东西” 。
转自网界网:http://bigdata.cnw.com.cn/bigdata-newinformation/htm2013/20131226_288618.shtml
分享到:
相关推荐
Hadoop源码分析是深入理解Hadoop分布式计算平台原理的起点,通过源码分析,可以更好地掌握Hadoop的工作机制、关键组件的实现方式和内部通信流程。Hadoop项目包括了多个子项目,其中最核心的是HDFS和MapReduce,这两...
Hive是建立在Hadoop之上的数据仓库工具,它允许用户使用SQL-like语言进行数据查询和分析,简化了大数据分析的过程。Hive将SQL语句转换为MapReduce任务运行在Hadoop集群上,提供了一种更易用的接口来处理Hadoop中的大...
本主题将深入探讨Hadoop在数据分析中的应用及其生态系统的关键技术。 首先,我们需要理解“大数据”的概念。大数据指的是无法用传统数据库软件工具捕获、管理和处理的大规模数据集。这些数据集通常具有三个关键特征...
此外,平台可能还提供了高级特性,如数据流处理、实时分析、机器学习集成等,以满足现代企业对大数据分析的需求。 总的来说,DATAGURU-Hadoop数据分析平台是一个全面的解决方案,集成了Hadoop的关键组件和技术,...
这个"Hadoop源码分析视频下载"提供了一种深入理解Hadoop内部工作原理的途径,这对于开发者、系统管理员以及对大数据技术感兴趣的人来说是非常有价值的。接下来,我们将详细探讨Hadoop的核心组件、其设计哲学、源码...
基于Hadoop的成绩分析系统 本文档介绍了基于Hadoop的成绩分析系统的设计和实现。Hadoop是一个分布式开源计算平台,具有高可靠性、高扩展性、高效性和高容错性等特点。该系统使用Hadoop的分布式文件系统HDFS和...
【基于Hadoop豆瓣电影数据分析实验报告】 在大数据时代,对海量信息进行高效处理和分析是企业决策的关键。Hadoop作为一款强大的分布式计算框架,自2006年诞生以来,已经在多个领域展现了其卓越的数据处理能力。本...
HDFS 是 Hadoop 的核心组件之一,是一个分布式文件系统。HDFS 的主要功能是提供一个高可靠、高可扩展的文件系统,可以存储大量的数据。HDFS 的架构主要包括以下几个部分: * Namenode:负责管理文件系统的命名空间...
【基于Hadoop的电影影评数据分析】是一项大数据课程的大作业,旨在利用Hadoop的分布式处理能力来分析电影影评数据。Hadoop是一个由Apache软件基金会开发的开源框架,专为处理和存储大规模数据而设计。它由四个核心...
025.Hadoop架构分析之启动脚本分析(start-dfs.cmd与hadoop-conf.cmd).mp4 026.Hadoop架构分析之启动脚本分析(hadoop.cmd命令).mp4 027.Hadoop架构分析之启动脚本分析(数据格式化与hdfs.cmd命令).mp4 028....
《Hadoop数据分析》一书是O'Reilly出版社的力作,专为那些希望深入理解如何利用Hadoop进行大规模数据处理和分析的专业...通过阅读本书,你可以系统地学习如何在Hadoop平台上进行高效的数据分析,开启大数据探索之旅。
Hadoop豆瓣电影数据分析(Hadoop)操作源码
基于Hadoop网站流量日志数据分析系统 1、典型的离线流数据分析系统 2、技术分析 - Hadoop - nginx - flume - hive - mysql - springboot + mybatisplus+vcharts nginx + lua 日志文件埋点的 基于Hadoop网站流量...
本文将深入探讨“Hadoop之外卖订单数据分析系统”,并介绍如何利用Hadoop进行大规模数据处理,以及如何将分析结果通过可视化手段进行展示。 首先,我们需要理解Hadoop的核心组件:HDFS(Hadoop Distributed File ...
在这个系统中,Hadoop可能被用来进行实时或批量的数据分析,帮助投资者、分析师或金融机构理解股票市场的动态,预测趋势,以及做出更明智的投资决策。 “人工智能-Hadoop”的描述暗示了Hadoop可能与人工智能技术...
"王家林的“云计算分布式大数据Hadoop实战高手之路"是一份旨在帮助初学者逐步掌握Hadoop技术的专业教程。这个教程的特色在于其详尽无遗的步骤指导,使学习者能够从零开始构建Hadoop的单机和伪分布式环境,从而深入...
在这个项目中,我们重点关注的是一套完整的Hadoop分析气象数据的代码,这涉及到分布式计算、数据处理以及数据可视化等多个关键知识点。 首先,我们要理解Hadoop的核心组件:HDFS(Hadoop Distributed File System)...
针对本次实验,我们需要用到Hadoop集群作为模拟大数据的分析软件,集群环境必须要包括,hdfs,hbase,hive,flume,sqoop等插件,最后结合分析出来的数据进行可视化展示,需要用到Python(爬取数据集,可视化展示)...