`
男人50
  • 浏览: 237442 次
  • 性别: Icon_minigender_1
  • 来自: 珠海
社区版块
存档分类
最新评论

跟我学spark1

阅读更多
科普Spark,Spark是什么,如何使用Spark




1.Spark基于什么算法的分布式计算(很简单)

2.Spark与MapReduce不同在什么地方

3.Spark为什么比Hadoop灵活

4.Spark局限是什么

5.什么情况下适合使用Spark




什么是Spark

Spark是UC Berkeley AMP lab所开源的类Hadoop MapReduce的通用的并行计算框架,Spark基于map reduce算法实现的分布式计算,拥有Hadoop MapReduce所具有的优点;但不同于MapReduce的是Job中间输出和结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的map reduce的算法。其架构如下图所示:




Spark与Hadoop的对比

Spark的中间数据放到内存中,对于迭代运算效率更高。

Spark更适合于迭代运算比较多的ML和DM运算。因为在Spark里面,有RDD的抽象概念。

Spark比Hadoop更通用

Spark提供的数据集操作类型有很多种,不像Hadoop只提供了Map和Reduce两种操作。比如map, filter, flatMap, sample, groupByKey, reduceByKey, union, join, cogroup, mapValues, sort,partionBy等多种操作类型,Spark把这些操作称为Transformations。同时还提供Count, collect, reduce, lookup, save等多种actions操作。

这些多种多样的数据集操作类型,给给开发上层应用的用户提供了方便。各个处理节点之间的通信模型不再像Hadoop那样就是唯一的Data Shuffle一种模式。用户可以命名,物化,控制中间结果的存储、分区等。可以说编程模型比Hadoop更灵活。

不过由于RDD的特性,Spark不适用那种异步细粒度更新状态的应用,例如web服务的存储或者是增量的web爬虫和索引。就是对于那种增量修改的应用模型不适合。

容错性

在分布式数据集计算时通过checkpoint来实现容错,而checkpoint有两种方式,一个是checkpoint data,一个是logging the updates。用户可以控制采用哪种方式来实现容错。

可用性

Spark通过提供丰富的Scala, Java,Python API及交互式Shell来提高可用性。

Spark与Hadoop的结合

Spark可以直接对HDFS进行数据的读写,同样支持Spark on YARN。Spark可以与MapReduce运行于同集群中,共享存储资源与计算,数据仓库Shark实现上借用Hive,几乎与Hive完全兼容。

Spark的适用场景

Spark是基于内存的迭代计算框架,适用于需要多次操作特定数据集的应用场合。需要反复操作的次数越多,所需读取的数据量越大,受益越大,数据量小但是计算密集度较大的场合,受益就相对较小(大数据库架构中这是是否考虑使用Spark的重要因素)

由于RDD的特性,Spark不适用那种异步细粒度更新状态的应用,例如web服务的存储或者是增量的web爬虫和索引。就是对于那种增量修改的应用模型不适合。总的来说Spark的适用面比较广泛且比较通用。

运行模式

本地模式

Standalone模式

Mesoes模式

yarn模式

Spark生态系统

Shark ( Hive on Spark): Shark基本上就是在Spark的框架基础上提供和Hive一样的H iveQL命令接口,为了最大程度的保持和Hive的兼容性,Shark使用了Hive的API来实现query Parsing和 Logic Plan generation,最后的PhysicalPlan execution阶段用Spark代替Hadoop MapReduce。通过配置Shark参数,Shark可以自动在内存中缓存特定的RDD,实现数据重用,进而加快特定数据集的检索。同时,Shark通过UDF用户自定义函数实现特定的数据分析学习算法,使得SQL数据查询和运算分析能结合在一起,最大化RDD的重复使用。

Spark streaming: 构建在Spark上处理Stream数据的框架,基本的原理是将Stream数据分成小的时间片断(几秒),以类似batch批量处理的方式来处理这小部分数据。Spark Streaming构建在Spark上,一方面是因为Spark的低延迟执行引擎(100ms+)可以用于实时计算,另一方面相比基于Record的其它处理框架(如Storm),RDD数据集更容易做高效的容错处理。此外小批量处理的方式使得它可以同时兼容批量和实时数据处理的逻辑和算法。方便了一些需要历史数据和实时数据联合分析的特定应用场合。

Bagel: Pregel on Spark,可以用Spark进行图计算,这是个非常有用的小项目。Bagel自带了一个例子,实现了Google的PageRank算法。

End.
分享到:
评论

相关推荐

    spark全套学习资料.zip

    - 1. 笔记可能是个人学习Spark过程中的总结,包含了对某些主题的独特见解和实践心得。 通过这一系列的学习资料,读者可以逐步建立起对Spark的全面认知,从基础到高级,从理论到实践,逐步提升大数据处理的能力。...

    sparkspark

    1. **Spark Core**:这是Spark的基础部分,提供分布式任务调度、内存管理、故障恢复等功能。 2. **Spark SQL**:用于结构化数据处理,支持SQL查询,并能轻松处理结构化和半结构化的数据。 3. **Spark Streaming**:...

    Spark最佳学习路径-黄忠

    生态篇:这一部分深入介绍了Spark的各个组成部分,包括Spark Core、Spark Streaming、Spark GraphX、Spark SQL、Spark R、MLBase、Tachyon、BlinkDB和Akka等。通过这一部分的学习,学习者将获得对Spark整个生态系统...

    spark学习总结-入门

    spark学习总结-入门

    Spark学习总结-入门

    Spark是一个高效的分布式计算系统,发源...Spark立足于内存计算,相比Hadoop MapReduce,Spark在性能上要高100倍,而且Spark提供了比Hadoop更上层的API,同样的算法在Spark中实现往往只有Hadoop的1/10或者1/100的长度。

    spark学习文档.rar

    Spark是Apache软件基金会下的一个开源大数据处理框架,以其高效、灵活和可扩展性著称。Spark的核心特性包括批处理、交互式查询(通过Spark SQL)、流处理(通过Spark Streaming)以及机器学习(通过MLlib)等。这个...

    spark资料学习

    "Spark快速数据处理完整版.pdf"深入讲解了Spark的快速数据处理能力,包括RDD(弹性分布式数据集)、DataFrame和Dataset等核心概念,以及Spark SQL、Spark Streaming和Spark MLlib等组件的使用。 "Spark核心技术与...

    spark学习资料

    压缩包中的"Spark面试2000题系列第5期参考答案_1.docx"可能包含了Spark相关的面试题目和解答,这些问题可能涵盖Spark的基础知识、最佳实践、性能调优等方面。通过这些面试题,读者可以评估自己的Spark知识水平,并...

    spark入门学习基础知识

    Spark 是一种与 Hadoop 相似的开源集群计算环境,但是两者之间还存在一些不同之处,这些有用的不同之处使 Spark 在某些工作负载方面表现得更加优越,换句话说,Spark 启用了内存分布数据集,除了能够提供交互式查询...

    spark生态系统的学习

    1. Spark核心架构:Spark Core是Spark生态系统的核心组件,负责处理数据的读取和写入,提供了RDD的抽象和操作接口。 2. Spark SQL:Spark SQL是Spark生态系统中的数据处理引擎,提供了关系型数据库风格的API,可以...

    spark学习文档

    1. **01Spark生态和安装部署.pdf** Spark生态系统包括多个组件,如Spark Core、Spark SQL、Spark Streaming、MLlib(机器学习库)和GraphX(图处理)。这个文件会介绍如何在各种环境(例如本地、Hadoop YARN、Mesos...

    spark相关学习资料.zip

    1. **内存计算**:Spark引入了基于内存的数据存储和计算模型,相比于传统的磁盘I/O,大幅度提高了数据处理速度。它将数据缓存在内存中,进行迭代计算时避免了反复读写硬盘,显著提升了处理效率。 2. **弹性分布式...

    spark 入门学习教程

    Spark在2013年6月进入Apache成为孵化项目,8个月后成为Apache顶级项目,速度之快足见过人之处,Spark以其先进的设计理念,迅速成为社区的热门项目,围绕着Spark推出了Spark SQL、Spark Streaming、MLLib和GraphX等...

    Spark-Core学习知识笔记整理

    1 What is Spark 3 2 Spark简介 3 3 Spark历史 4 4 BDAS生态系统 4 5 Spark与Hadoop的差异 5 6 Spark的适用场景 6 7 Spark成功案例 6 第二章 Spark开发环境搭建 8 1 Spark运行模式 8 2 Spark环境搭建 8 2.1Scala的...

    Spark学习思维脑图

    Spark学习思维脑图概括,包括SparkCore、SparkSQL、SparkStreaming的详细学习知识点。

    spark安装包+spark实验安装软件

    **1. Spark的基本概念** Spark的核心组件包括:Spark Core、Spark SQL、Spark Streaming、MLlib(机器学习库)和GraphX(图计算)。Spark Core提供了基础的分布式任务调度和内存管理机制;Spark SQL用于结构化数据...

    spark学习资料大全 下载 六份资料

    包括:《Spark大数据处理:技术、应用与性能优 》 《Spark大数据处理技术》 《Spark高级数据分析》 《Spark快速数据处理_中文版》 《大数据Spark企业级实战》 《Spark 编程指南》 方便大家共同学习

    Spark全面精讲(基于Spark2版本+含Spark调优+超多案例)【不是王家林版本】

    0基础spark,基于spark2,内容完整全面,学完精通spark

Global site tag (gtag.js) - Google Analytics