`
peigang
  • 浏览: 171602 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论

分析师给出关于Hadoop的12个事实

 
阅读更多

分析师给出关于Hadoop的12个事实

TechTarget中国原创内容,原文链接:http://www.searchbi.com.cn/showcontent_62856.htm?info=databaseweekly20120622

 

【TechTarget中国原创】现如今,Apache Hadoop已经无人不知无人不晓。当年雅虎搜索工程师Doug Cutting开发出这个用以创建分布式计算机环境的开源软件库,并以自己儿子的大象玩偶为其命名的时候,谁能想到它有一天会占据“大数据”技术的头把交椅呢。

  虽然Hadoop伴随大数据一同火爆起来,但相信还是有许多用户对于它不甚了解。在上周名的TDWI解决方案峰会中, TDWI研究主任兼行业分析师Philip Russom发表了“关于Hadoop的12点事实”的主题演讲,TechTarget编辑在本文中将对其精华内容进行总结,希望对您进一步了解Hadoop有所帮助。



  事实1:Hadoop是由多个产品组成的。

  人们在谈论Hadoop的时候,常常把它当做单一产品来看待,但事实上它由多个不同的产品共同组成。

  Russom说:“Hadoop是一系列开源产品的组合,这些产品都是Apache软件基金会的项目。”

  一提到Hadoop,人们往往将其与MapReduce放在一起,但其实HDFS和MapReduce一样,也是Hadoop的基础。

  事实2:Apache Hadoop是开源技术,但专有厂商也提供Hadoop产品。

  由于Hadoop属于开源技术,可免费下载,所以IBM、Cloudera和EMC Greenplum等厂商都可以推出他们各自的Hadoop特别发行版本。

  这些特别发行版本一般都会有一些附加特性,比如高级管理工具及相关的支持维护服务。有人可能对此嗤之以鼻:既然开源社区是免费的,那么我们为什么还要为它的服务付费?Russom解释道,这些版本的HDFS对一些IT部门更合适,特别是企业IT系统已经相对成熟的用户。

  事实3:Hadoop是一个生态系统,而非一个产品。

  Hadoop是由开源社区和各个厂商共同开发和推动的。具体说来,厂商的Hadoop的产品其结构化和关系性更强一些。

  Russom说:“一直以来报表平台、数据集成平台在为更新的平台提供各种各样的接口,Hadoop当然也不例外。”

  事实4:HDFS是文件系统,而不是数据库管理系统。

  Russom最无法忍受的,就是人们常常把二者混为一谈。能够对数据集进行管理是数据管理系统很重要的特性之一,这一点HDFS是不具备的。

  数据库管理系统中,我们通过查询索引可以实现对数据的随机访问,它往往处理的是结构化的数据,而在Hadoop中不会处理这样的数据类型。

  事实5:Hive与SQL类似,却非标准SQL。

  传统获取数据的业务工具大多都是基于SQL的,这比较让人头疼,因为Hadoop使用的是一种类似SQL但不是SQL的语言——Apache Hive和HiveQL。

  Russom说:“我常听到别人说,‘Hive学起来非常简单,直接学Hive就行。’但这并不能解决与SQL工具兼容的根本问题。”

  Russom认为兼容性只是一个短时间问题,但却阻碍了Hadoop的普及。

  事实6:Hadoop与MapReduce相互关联,但不相互依赖。

  MapReduce早在HDFS出现以前就由Google开发推出。除此之外,诸如MapR一类的厂商一直在宣传MapReduce功能的多样性,无需HDFS支持。

  尽管如此,Russom却认为它们具有很好的互补性。HDFS的大部分价值都体现在可层叠到分布式文件系统的工具上。

  事实7:MapReduce提供的是对分析的控制,而不是分析本身。

  MapReduce是一种通用执行驱动引擎,可协助大数据分析。它能读取手写代码数据,对其进行并行自动处理,并将结果映射到单一集合中。然而我们需要明确一点,MapReduce自身并不进行分析工作。

  Russom说:“MapReduce可以看作是升级版的MPP架构。你无论怎样编写代码,它都可以把它们并行化,非常强大。”

  事实8:Hadoop的意义不仅仅在于数据量,更在于数据的多样化。

  有人把Hadoop归类为海量数据处理技术,但是Hadoop真正的价值却是对多样化数据处理的能力。

  Russom说:“Hadoop的处理范围为大多数数据仓库所不及,比如针对半结构化与完全非结构化的数据。”

  事实9:Hadoop是数据仓库的补充,不是数据仓库的替代品。

  Hadoop对多样化数据类型进行管理的能力使得“数据仓库将死”的言论四起,然而Russom却进行了反驳。

  他反问道:“在IT领域,人们多久替换一项技术?几乎从来没有过。”

  数据仓库在其领域中的性能仍然出色,Hadoop可起到对数据仓库技术进行补充的作用。数据仓库和其他系统的架构越来越多地开始向分布式靠拢,Hadoop在这里将发挥其作用。

  事实10:Hadoop不仅仅是Web分析。

  Hadoop在互联网中的运用非常普遍,Russom认为Hadoop普及趋势的部分原因是因为它可以处理更多类型的分析。

  Russom举了铁路公司、机器人和零售业的例子。铁路公司可使用传感器对异常高温的轨道车辆进行探测,以阻止事故的发生。

  Russom尽管十分看好Hadoop的前景,但同时认为它的普及还需要数年时间。

  事实11:大数据不一定非Hadoop不可。

  别看现在大数据和Hadoop已经密不可分,Russom却认为Hadoop并不是大数据的“唯一”。他提到了许多其他厂商的产品,如Teradata、Sybase IQ(被SAP收购)和Vertica(被HP收购)等。

  除此之外,在Hadoop没有诞生之时,一些企业就已经开始研究大数据了。例如,电信行业多年以前就有呼叫明细记录。

  事实12:Hadoop不是“免费午餐”。

  虽然Hadoop属于开源技术,但是软件的安装部署是需要花钱的。Russom称,由于Hadoop在管理工具与支持服务方面的不足,企业在使用过程中很容易产生额外费用。另外,由于它没有优化程序,我们只能请专业人士在运行环境中手写输入代码,而这些专业人士的薪酬价码都不菲。

  更不用提部署Hadoop集群的硬件和相关配置的成本。

  他说:“千万别以为Hadoop是免费的或者很便宜,它背后的隐性开销你是一下子看不到的。”


TechTarget中国原创内容,原文链接:http://www.searchbi.com.cn/showcontent_62856.htm?info=databaseweekly20120622

分享到:
评论

相关推荐

    基于Sqoop+Hive+Spark+MySQL+AirFlow+Grafana的工业大数据离线数仓项目

    在离线数仓项目中,Hive构建了数据仓库架构,包括事实表和维度表,便于数据分析师进行多维数据分析。此外,Hive还能提供ETL(提取、转换、加载)功能,对导入的数据进行预处理,以满足业务需求。 Spark作为一个快速...

    尚硅谷大数据项目之电商数仓(2用户行为数据仓库).rar

    这对于非编程背景的业务分析师来说尤其友好,因为他们可以使用熟悉的SQL语法进行数据分析。在电商数仓中,Hive可以帮助我们快速构建数据模型,定义表结构,执行ETL(提取、转换、加载)任务,并对用户行为数据进行...

    Kylin多维分析.pdf

    这使得分析师能够灵活地探索数据的不同侧面,从而更好地理解数据背后的故事。 #### 二、Kylin的核心功能 ##### 外部功能: - **可扩展性极强的基于大数据的OLAP引擎**:Kylin支持PB级别的数据规模,能够在亚秒级...

    kylin简单介绍

    Apache Kylin 是一个开源的分布式分析引擎,由 eBay 开发贡献至开源社区。...它的出现降低了大数据分析的门槛,让分析师能够使用熟悉的 SQL 查询语言,访问和分析 Hadoop 上的数据,从而更好地支持决策制定。

    2013大数据技术大会drill介绍

    在2013年的大数据技术大会上,Drill的介绍提供了关于该大数据查询工具的重要信息,这些信息对于大数据分析师来说是非常宝贵的入门材料。Drill作为一个开源的分布式SQL查询引擎,旨在对Hadoop、NoSQL和云存储服务等大...

    ETL架构师常问问题.pdf

    在实际工作中,他们需要与业务分析师、数据建模师、数据库管理员等密切协作,以确保数据仓库的成功建设和运行。此外,随着大数据和云计算技术的发展,ETL架构师还需要熟悉Hadoop、Spark等分布式计算框架以及云服务,...

    数据库的数据仓库MSQ

    在数据仓库中,SQL发挥着至关重要的作用,因为分析师通常使用SQL来提取、分析大量数据并生成报告。 一个初级的数据仓库项目可能涵盖以下关键概念: 1. **星型模式和雪花模式**:这是两种常见的数据仓库模型。星型...

    《数据仓库原理、设计与应用》电子教案1.rar

    数据仓库是信息技术领域中的一个重要概念,它主要用于支持企业的决策分析过程。这个电子教案1的压缩包文件包含了关于数据...通过这些教程,无论是IT专业人士还是业务分析师,都能提升自己在数据仓库领域的专业知识。

    Hive数据仓库全套电子课件完整版ppt整本书电子教案最全教学教程.pptx

    它提供了易用的查询接口,以及与数据库相似的工作方式,使得数据分析师和业务人员能高效地探索和理解大数据。同时,Hive 的设计考虑到了大数据场景下的性能、可扩展性和灵活性,使其成为大数据处理领域的重要组成...

    数据仓库基础.

    5. 用户:业务分析师、管理者等,他们利用数据仓库获取洞察并作出决策。 三、数据仓库的设计 1. 星型模式和雪花模式:星型模式是最简单的维度模型,由事实表和多个维度表组成;雪花模式是对星型模式的优化,通过...

    基于COOKIE的点击流数据仓库构建思路(二).pdf

    然而,由于是开源的,该工具没有很好的服务支持,专业并且了解底层的网站分析师是必须的。 本篇文章介绍了基于COOKIE的点击流数据仓库构建思路,使用Piwik数据仓库作为原型,并对Piwik的底层数据表进行了详细介绍。...

    数据分析师面试试题汇总.docx

    ### 数据分析师面试试题知识点解析 #### 1. 大数据量处理 - **知识点**: 数据规模、处理技术、结果分析 - **详细说明**: 在实际工作中,数据分析师可能需要处理TB甚至PB级别的数据。理解如何有效地存储、处理这些...

    Data-warehousing.zip_zip

    5. 用户接口:提供给业务分析师和决策者使用的界面,以交互方式访问数据仓库。 三、数据仓库的设计原则 1. 面向主题:围绕特定业务领域组织数据,如客户、产品、销售等。 2. 非易失性:一旦数据加载到仓库,不会被...

    Google论文

    第二篇提到的是Hadoop Distributed File System (HDFS),它是受GFS启发而创建的开源实现。HDFS是Apache Hadoop项目的核心组成部分,广泛应用于大数据分析和处理。HDFS同样采用主从架构,通过NameNode负责元数据管理...

    开源BI平台Openi的开发数据仓库系统.rar

    通过学习这个“开源BI平台Openi的开发数据仓库系统.doc”文档,开发者和数据分析师可以深入了解如何利用Openi搭建高效的数据仓库,从而更好地挖掘数据价值,驱动企业决策。在实际操作中,还需要结合具体的业务场景和...

    Kylin使用之权威指南

    总之,《Kylin使用之权威指南》是初学者和有经验的开发者深入了解和掌握Kylin的宝贵资源,无论你是数据分析师、数据工程师还是BI专业人员,都能从中受益匪浅。通过阅读Apache Kylin官方指定文档.pdf,你可以系统地...

    计算机论文 翻译 毕业设计

    数据仓库的定义多种多样,使得给出严格的定义变得困难。通俗来说,数据仓库是与组织的操作数据库分开维护的一个数据库。数据仓库系统允许整合各种应用系统,提供一个集中的历史数据平台,支持分析型的信息处理。著名...

    大数据合作资产的多元创新模式.zip

    8. 人才需求与培养:大数据合作资产模式的实施需要具备数据科学技能的专业人才,包括数据分析师、数据工程师和数据科学家等。因此,教育和培训体系也需要适应这种变化,培养具备大数据分析能力的人才。 9. 政策环境...

    大数据行业专业术语合集.pdf

    26. **数据分析师**:专门从事数据清洗、建模、分析的专业人士。 27. **数据库**:数据的集合,通过特定技术组织和存储。 28. **数据库即服务 (DBaaS)**:云托管的数据库,按使用量付费。 29. **数据库管理系统 ...

Global site tag (gtag.js) - Google Analytics