`
younglibin
  • 浏览: 1211811 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论

大数据与Hadoop之间的关系

 
阅读更多

 

个人汇总:

 hadoop :Hadoop是一个能够对大量数据进行分布式处理的软件框架,它是一种技术的实现

大数据:

 

资料:

我们都听过这个预测:到2020年,电子数据存储量将在2009年的基础上增加44倍,达到35万亿GB。根据IDC数据显示,截止到2010年,这个数字已经达到了120万PB,或1.2ZB。如果把所有这些数据都存入DVD光盘,光盘高度将等同于从地球到月球的一个来回也就是大约 480,000英里。

 

对于那些喜欢杞人忧天的人来说,这是数据存储的末日即将到来的不祥预兆。而对于机会主义者们而言,这就好比是个信息金矿,随着技术的进步,金矿开采会变得越来越容易。

 

走进大数据,一种新兴的数据挖掘技术,它正在让数据处理和分析变得更便宜更快速。大数据技术一旦进入超级计算时代,很快便可应用于普通企业,在遍地开花的过程中,它将改变许多行业业务经营的模式。

 

在计算机世界里,大数据被定义为一种使用非传统的数据过滤工具,对大量有序或无序数据集合进行的挖掘过程,它包括但不仅限于分布式计算(Hadoop)。

 

大数据已经站在了数据存储宣传的风口浪尖,也存在着大量不确定因素,这点上非常像“云”。我们请教了一些分析人士和大数据爱好者,请他们解释一下大数据究竟是什么,以及它对于未来数据存储的意义。

 

大数据走进历史舞台

 

适用于企业的大数据已经出现,这在部分程度上要归功于计算能耗的降低以及系统已具备执行多重处理的能力这样一个事实。而且随着主存储器成本的不断下降,和过去相比,公司可以将更多的数据存到存储器中。并且,将多台计算机连到服务器集群也变得更容易了。这三个变化加在一起成就了大数据,IDC 数据库管理分析师Carl Olofson如是说。

 

“我们不仅要把这些事情做好,还要能承受得起相应的开支”,他说。 “过去的某些超级计算机也具有执行系统多重处理的能力,(这些系统紧密相连,形成了一个集群)但因为要使用专门的硬件,它的成本高达几十万美元甚至更多。”现在我们可以使用普通硬件完成相同的配置。正因为这样,我们能更快更省得处理更多数据。"

 

大数据技术还没有在有大型数据仓库的公司中得到广泛普及。IDC认为,想让大数据技术得到认可,首先技术本身一定要足够便宜,然后,必须满足IBM称之为3V标准中的2V,即:类型(variety),量(volume)和速度(velocity)。

 

种类要求指的是待存储数据的类型分为结构化数据和非结构化数据。量是指存储和分析的数据量可以很庞大。 “数据量不只是几百TB,”

 

Olofson说: “要视具体情况而定,因为速度和时间的关系,有时几百GB可能就算很多了。如果我现在一秒能完成过去要花一小时才能完成的300GB的数据分析,那结果将大为不同。大数据就是这样一种技术,它可以满足这三个要求中的至少两个,并且普通企业也能够部署。”

 

关于大数据的三大误解

 

对于大数据是什么以及大数据能干什么存在很多误会。下面就是有关大数据的三个误解:

 

1、关系数据库无法大幅增容,因此不能被认为是大数据技术(不对)

 

2、无需考虑工作负载或具体使用情况,Hadoop或以此类推的任何MapReduce都是大数据的最佳选择。(也不对)

 

3、图解式管理系统时代已经结束。图解的发展只会成为大数据应用的拦路虎。(可笑的错误)

 

大数据与开源的关系

 

“很多人认为Hadoop和大数据基本上是一个意思。这是错误的,”Olofson说。并解释道: Teradata, MySQL和“智能聚合技术”的某些安装启用都用不到Hadoop,但它们也可以被认为是大数据。

 

Hadoop是一种用于大数据的应用程序,因为它是建立在MapReduce基础上的,所以引起了极大的关注。(MapReduce是一种用于超级计算的普通方法,之后经过了主要由Google资助的一个项目的优化,因此被简化并变得考究了。) Hadoop是几个紧密关联的Apache项目组成的混合体的主要安装启用程序,其中包括MapReduce环境中的HBase数据库。

 

为了充分利用Hadoop和类似的先进技术,软件开发商们绞尽脑汁研发出了各种各样的技术,其中很多都是在开源社区里开发出来的。

 

Olofson 说“他们已经开发出了大量的所谓noSQL数据库,种类之多让人眼花缭乱,其中大部分都是键值配对数据库,能利用多种技术对性能或种类或容量进行优化。”

 

开源技术还没有得到商业支持。“所以在这方面还需要经过一段时间的发展完善,这一过程可能需要几年。基于这个原因,大数据可能需要一些时日才能在市场上走向成熟”他补充道。

 

据IDC预计,年内至少有三家商业公司能以某种方式给予Hadoop支持。同时,包括Datameer 在内的几家企业将发布配有Hadoop组件的分析工具,这种工具能帮助企业开发自己的应用程序。Cloudera和Tableau公司的产品清单里已经出现了Hadoop。

 

 

 

 

来源:http://os.51cto.com/art/201205/339932.htm

分享到:
评论

相关推荐

    大数据内部Hadoop系列培训经典内容,包括大数据系列架构

    它简化了批量数据迁移过程,允许用户在关系型数据库和Hadoop之间进行高效的数据交换。 在“hadoop实战-part1.pdf”和“hadoop实战-part2.pdf”中,你将深入学习这些技术的原理、配置、使用方法以及实际案例。通过这...

    Hadoop数据分析_大数据_hadoop_数据分析_

    6. **Sqoop**:用于在Hadoop和传统数据库之间导入/导出数据的工具。 7. **Flume**:用于收集、聚合和移动大量日志数据的系统,常用于数据流入Hadoop集群。 8. **Oozie**:工作流调度系统,管理Hadoop生态系统中的...

    大数据 / Hadoop,大数据工作爱好者【初级学习hadoop】

    2. **网络配置**:确保你的主机与虚拟机之间能进行通信。这涉及查看和配置本机网络适配器,使用NAT或桥接模式来映射IP地址。在网络参数配置中,分配静态IP地址以保持一致性。 3. **查看虚拟机网络地址**:了解虚拟机...

    大数据Hadoop框架核心技术对比与实现.pdf

    大数据技术的发展使得数据处理和分析成为各行...本文通过对经典WordCount程序的实现,展示了如何在伪分布式集群上使用不同的技术来解决问题,从而帮助读者理解各种技术的优势和特点,并理顺大数据关键技术之间的关系。

    Hadoop专业解决方案-第1章大数据和Hadoop生态圈.docx

    9. Sqoop:用于在Hadoop和传统关系型数据库之间导入导出数据的工具。 10. Oozie:工作流调度系统,管理和调度Hadoop作业。 这些组件共同构建了一个强大的大数据处理生态系统,使得企业能够高效地存储、处理和分析...

    邮政大数据Hadoop平台技术标书

    ### 邮政大数据Hadoop平台技术标书关键知识点解析 #### 一、技术偏离表与技术规范书 **技术偏离表**主要记录了招标文件的技术要求与投标方提供的技术方案之间的差异,以便于评估是否满足项目的实际需求。在本案例...

    基于大数据Hadoop的企业财务管理系统研究.pdf

    基于大数据Hadoop的企业财务管理系统研究,探讨了当前企业财务管理系统存在的问题,并提出了构建新型基于大数据的财务管理系统作为解决方案。为了提高财务数据处理的规范性与效率,研究者们采用Canopy优化的K-means...

    大数据技术 Hadoop开发者第二期 MapReduce HDFS Hive Mahout HBase 共64页.pdf

    - **概述**:简要评价 HDFS、MapReduce 和 HBase 之间的关系及各自的特点。 - **HDFS**:作为 Hadoop 的分布式文件系统,主要负责海量数据的存储。 - **MapReduce**:用于数据处理框架,能够高效处理大规模数据集。 ...

    Hadoop大数据云平台

    例如,Hadoop和HBase结合,可以在大数据存储和实时查询之间找到平衡;Hive和Spark的集成,提高了数据处理的效率和用户体验;Zookeeper在背后保证了系统的稳定性和一致性。 在学习和搭建Hadoop云平台的过程中,你...

    大数据之路选择Hadoop还是MaxCompute?Hadoop开源与MaxCompute对比材料

    ### 大数据之路选择Hadoop还是MaxCompute? #### 一、Hadoop与MaxCompute概述 ##### 1.1 Hadoop介绍与发展历程 Hadoop是由Apache软件基金会开发的一个开源分布式计算平台,采用Java语言编写,旨在支持大规模数据...

    大数据hadoop

    ### 大数据Hadoop知识点详解 #### 一、大数据概览与Hadoop介绍 - **大数据时代背景**:随着信息技术的飞速发展,尤其是互联网、移动互联网、物联网等技术的广泛应用,人类社会进入了数据爆炸的时代。大数据的概念...

    物联网大数据Hadoop全套软件

    综上所述,物联网大数据Hadoop全套软件包含了Hadoop及其生态系统的多个重要组件,这些组件能够协同工作,帮助我们有效地处理和分析来自物联网的海量数据。对于想要在物联网领域进行数据分析的企业和个人来说,这套...

    大数据史上最全的思维导图

    通过这份思维导图,初学者可以清晰地了解大数据领域的整体架构和各个技术之间的关系。Hadoop和Spark负责数据的存储和处理,Scala作为Spark的主要编程接口,Kafka则在数据流处理中扮演关键角色,而这一切都在Linux...

    大数据基础面试题hadoop,zookeeper,hbase,hive,spark,kafka,flink,clickhouse

    基于 Hadoop 的 HBase 是一个非关系型数据库(NoSQL),适合实时读写大规模数据。它提供了行式存储,支持列族,具有良好的水平扩展性,适用于时间序列数据或稀疏数据。 4. **Hive**: Hive 是构建在 Hadoop 上的...

    海量结构化和非结构化大数据Hadoop集群规划.pdf

    其产品不仅支持多种国产芯片,如OpenPower、ARM、X86、飞腾、龙芯和申威,还与国际和国内的芯片、操作系统、服务器和应用软件厂商建立了合作关系,推动国产化和自主可控的大数据解决方案。 总的来说,构建一个上千...

    hadoop大数据基础学习

    - 是一款开源的工具,主要用于在Hadoop和关系型数据库之间传输数据。 - 支持从关系型数据库导入数据到Hadoop的HDFS中,也支持将HDFS中的数据导出到关系型数据库中。 6. **Flume**: - 是一个高可用的、高可靠的...

    大数据Hadoop开发基础.doc

    ### 大数据Hadoop开发基础知识点详解 #### 一、Hadoop概述 **Hadoop**是一种开源的大数据处理框架,最初由Apache基金会发起并维护。它能够存储和处理大规模的数据集,利用分布式计算来实现高性能的数据处理能力。...

    完整版大数据云计算课程 Hadoop数据分析平台系列课程 Hadoop 01 Hadoop介绍 共33页.pptx

    学习Hadoop涉及安装、配置和管理Hadoop集群,包括设置Hadoop环境,配置集群节点,以及在不同操作系统和关系型数据库之间传输数据。熟练掌握这些技能是成为Hadoop专家的基础。 【实验环境】 通常,一个Hadoop学习或...

Global site tag (gtag.js) - Google Analytics