`

Spark简介

 
阅读更多
Apache Hadoop是一个成熟的开发框架,其连接着庞大的生态系统,并且得到了Cloudera、Hortonwork、Yahoo这些卓越机构的支持与贡献,并且为各个组织提供了许多工具来管理不同大小规则的数据。

在过去,Hadoop中运用MapReduce进行批处理的特性足以满足许多组织的处理需求。然而,随着信息化时代的发展,越来越多组织亟需使用更加快速的数据处理。这些需求来自各个领域的驱动,其中包括最近发展的流媒体技术、物联网、实时分析处理,这些也仅仅只是其中一部分。他们需要一套新的数据处理模型。在今天,能够满足上文提到的需求而引起了业界人士浓厚兴趣与广泛的支持的一项重要的新技术,就是Apache Spark。从能源产业到金融行业,Spark凭借其高效性与多功能性已经成为当今大数据处理栈中的关键部分。

Spark是一个比MapReduce更加灵活的开源且通用的计算框架。Spark凭借其高速的内存计算,在函数式编程中与Hadoop相比更具生产力。例如,如图1所示,在逻辑回归算法性能测试中,Spark内存计算下的运行比Hadoop MapReduce快了几个数量级的速度。



图1:逻辑回归算法性能测试。图片来源:Apache Spark,使用已经过授权。

其中Spark的一些特性包括:
它利用分布式内存进行计算。
它支持完整的用有向无环图(DAG)来展示数据的并行计算。
它可以提高开发人员的经验。
它提供了线性可伸缩性与数据本地化。
它具有容错机制。

Spark为各种不同的用户提供着便利:信息技术开发人员可以受益于Spark支持各种流行的开发语言,例如Java、Python、R语言;而数据科学家可以在Spark支持的机器学习(ML)库中获得研究便利。

在Spark中还有一个庞大且不断增长的第三方包列表,将各式各样的工具、环境、框架、语言整合到一起,从而扩展Spark的复杂性以及能力。

Spark用例可以部署在不同的生产场景中,其中包括在一个大型技术公司中运用Spark通过使用机器学习来进行个性化搜索;在一个金融系统中仅需数小时便可以处理数以百万计的股票分析,要知道相同的工作量下此前使用Hadoop MapReduce起码得耗费一周的时间;在学术环境中进行基因科学研究;在视频系统中,Spark与Spark Streaming被用于处理流媒体及其分析;以及卫生保健领域中Spark被用于进行疾病的预测建模。

如此看来似乎各式各样不同的问题都能通过Spark成功地被解决,但是最重要的是我们仍需要不断去优化Spark的架构,以处理任何所提及到的用例。正如Spark拥有强大的特性,简而言之,这也意味着它的复杂性。因此,为了获得最佳性能的Spark,它需要成为一个更广泛的Hadoop基础数据管理平台的重要组成部分。此外,为了能在实时或者预测分析中得到更大收益,那么优化整个数据供应链也是至关重要的。
分享到:
评论

相关推荐

    hadoop&spark简介及应用实例及实例分析.txt

    hadoop&spark简介及应用实例及实例分析.txthadoop&spark简介及应用实例及实例分析.txthadoop&spark简介及应用实例及实例分析.txthadoop&spark简介及应用实例及实例分析.txthadoop&spark简介及应用实例及实例分析....

    storm与spark简介

    ### Storm与Spark简介 #### Storm框架详解 **Storm** 是一款强大的实时数据流处理系统,其设计目的是为了处理持续不断涌入的数据流,并将其处理后输出至数据库或其它系统。相较于 **Hadoop** 主要用于批处理,**...

    2_Hadoop与Spark简介.pptx

    【Hadoop与Spark简介】 Hadoop是一个开源的分布式计算平台,由Apache软件基金会维护,它为用户提供了在分布式环境中处理海量数据的能力。Hadoop的核心包括两个主要组件:Hadoop分布式文件系统(HDFS)和MapReduce。...

    spark简介及应用.pdf

    ### Spark简介及应用 #### 一、Spark的核心优势与特点 **1.1 基于内存的计算模型** Spark最显著的特点之一是其基于内存的计算模型。相较于传统的大数据处理框架(如Hadoop)主要依赖磁盘进行计算,Spark能够将...

    Spark简介以及其生态圈

    Apache Spark是一个开源的大数据处理框架,它具备高容错性、弹性分布式数据集(RDD)的高效计算能力以及支持多种复杂的数据处理场景。它是由加州大学伯克利分校的AMPLab开发,后被捐赠给Apache软件基金会。Spark可以...

    spark简介及使用

    后来,Shark 被 Spark SQL 取代,Spark SQL 直接集成到了 Spark 主体中,提供更强大的功能和更好的性能。 五、总结 Spark 是一种高性能、易用且灵活的大数据处理框架,尤其适合迭代计算和交互式查询。通过内存计算...

    大数据学习笔记

    - **1.1 Spark简介与发展** - **背景**:随着大数据处理需求的增长,传统的Hadoop MapReduce框架虽然提供了强大的计算能力,但在处理速度、易用性和灵活性方面存在一定的局限性。 - **Spark的诞生**:Spark作为一...

    (1)Spark简介

    从bigdatastudy.cn下载的讲义

    Spark-Fundamentals:Spark基础知识I-Spark简介

    **Spark基础知识I-Spark简介** Spark,作为大数据处理领域中的明星框架,因其高效、易用和灵活的特点,已经成为许多企业和开发者进行大规模数据处理的首选工具。Spark的核心设计理念是提供一个统一的平台,支持多种...

    Spark机器学习案例实战.pdf

    1. Spark简介 Apache Spark是一个开源的大数据处理框架,主要用于大规模数据集的处理。它构建在Hadoop之上,提供了比Hadoop MapReduce更快的数据处理能力。Spark提供了用于快速计算的各种高级API,包括SQL查询、流...

    sparkspark

    ### Spark简介 Apache Spark是一种用于大规模数据处理的开源集群计算系统。它提供了比Hadoop MapReduce更快的速度,同时支持更多的功能,如交互式查询和流处理。Spark最初由加州大学伯克利分校的AMPLab开发,后来...

    fangyeqing#BigData-Notes#Spark简介1

    一、简介Spark 于 2009 年诞生于加州大学伯克利分校 AMPLab,2013 年被捐赠给 Apache 软件基金会,2014 年 2 月成为 Apach

    Spark-Core学习知识笔记整理

    第一章 Spark简介与计算模型 3 1 What is Spark 3 2 Spark简介 3 3 Spark历史 4 4 BDAS生态系统 4 5 Spark与Hadoop的差异 5 6 Spark的适用场景 6 7 Spark成功案例 6 第二章 Spark开发环境搭建 8 1 Spark运行模式 8 2...

    mastering-apache-spark最好的spark教程

    1. Apache Spark简介 Apache Spark是一个开源的集群计算系统,最初由加州大学伯克利分校的AMP实验室开发。它旨在提供快速、通用、可扩展的大数据处理能力。Spark构建于Hadoop之上,但引入了内存计算,能够支持数据...

    GeoMesa Spark.docx

    #### GeoMesa Spark简介 GeoMesa是一个高性能的空间数据库,它可以高效地处理大规模的空间数据。它支持多种后端存储系统,如HBase、Accumulo等。GeoMesa Spark则是在GeoMesa的基础上加入了对Apache Spark的支持,...

    spark大数据大型电商项目-spark-shopAnalyze.zip

    一、Spark简介 Apache Spark是Apache软件基金会下的一个开源项目,它提供了一个通用的并行计算框架,适用于批处理、交互式查询、流处理和机器学习等多种应用场景。Spark的核心优势在于其内存计算机制,通过将数据...

    spark运行原理解析

    #### 一、Spark简介与核心价值 Spark是一个开源的大数据处理框架,它提供了统一的数据处理接口,能够支持多种类型的数据处理任务,如批处理、流处理、交互式查询以及机器学习等。Spark的核心优势在于其高性能、易用...

    Mastering Apache Spark(掌握Apache Spark)英文版.pdf

    #### 一、Apache Spark简介与概述 **Apache Spark**是一种用于大规模数据处理的开源集群计算系统。它提供了一种高效、易用的方式来处理大量数据,并支持多种编程语言(如Java、Scala、Python等)。Spark的核心特性...

    spark 基础讲解ppt

    **Spark简介**:Spark是由加州大学伯克利分校AMP实验室开发的通用内存并行计算框架。Spark的核心特点是运行速度快、易用性好、通用性强和随处运行。其支持多种编程语言,包括R、Python、Java和Scala,并且随着版本...

Global site tag (gtag.js) - Google Analytics