spark基础知识

huangyongxing310

浏览: 503249 次
性别:
来自: 广州

最近访客更多访客>>

hiroada

lixiaoxin

u012363178

wangyy

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

Hadoop

spark基础知识

Apache Spark是一个围绕速度、易用性和复杂分析构建的大数据处理框架

官方资料介绍Spark可以将Hadoop集群中的应用在内存中的运行速度提升100倍，甚至能够将应用在磁盘上的运行速度提升10倍

Hadoop有两个核心模块，分布式存储模块HDFS和分布式计算模块Mapreduce
spark本身并没有提供分布式文件系统，因此spark的分析大多依赖于Hadoop的分布式文件系统HDFS
Hadoop的Mapreduce与spark都可以进行数据计算，而相比于Mapreduce，spark的速度更快并且提供的功能更加丰富

Spark Core：包含Spark的基本功能；尤其是定义RDD的API、操作以及这两者上的动作。其他Spark的库都是构建在RDD和Spark Core之上的
Spark SQL：提供通过Apache Hive的SQL变体Hive查询语言（HiveQL）与Spark进行交互的API。每个数据库表被当做一个RDD，Spark SQL查询被转换为Spark操作。
Spark Streaming：对实时数据流进行处理和控制。Spark Streaming允许程序能够像普通RDD一样处理实时数据
MLlib：一个常用机器学习算法库，算法被实现为对RDD的Spark操作。这个库包含可扩展的学习算法，比如分类、回归等需要对大量数据集进行迭代的操作。
GraphX：控制图、并行图操作和计算的一组算法和工具的集合。GraphX扩展了RDD API，包含控制图、创建子图、访问路径上所有顶点的操作

Spark运行特点：
每个Application获取专属的executor进程，该进程在Application期间一直驻留，并以多线程方式运行Task。这种Application隔离机制是有优势的，无论是从调度角度看（每个Driver调度他自己的任务），还是从运行角度看（来自不同Application的Task运行在不同JVM中），当然这样意味着Spark Application不能跨应用程序共享数据，除非将数据写入外部存储系统
Spark与资源管理器无关，只要能够获取executor进程，并能保持相互通信就可以了
提交SparkContext的Client应该靠近Worker节点（运行Executor的节点），最好是在同一个Rack里，因为Spark Application运行过程中SparkContext和Executor之间有大量的信息交换
Task采用了数据本地性和推测执行的优化机制

spark基础知识
https://blog.csdn.net/swing2008/article/details/60869183

支持多种编程语言接口：Java、Scala、Python，许多大公司如IBM等大力支持推广Spark的发展；

介绍了 Spark 的安装，Spark shell 、RDD、Spark SQL、Spark Streaming 等的基本使用。

RDD
RDD记录是的数据的来源，和数据是通过什么方式由原数据转换得来（转换方法）,每一个转换的方式（转换方法）都有所记录下来，所以一个个RDD是有链接关系的。

转换的过程中是不会进行相关运算和数据生成的，只是记录了相关的转换过程信息，当遇到行动方法时就取出RDD中的转换过程从头到尾进行相关的转换运算,这样的可以不保存中间转换结果，而减少数据复制和落盘的操作了

例子：
1.通过读取文件生成一个RDD，RDD记录了转换信息为RDD[readfile]
2.RDD通过过滤得到RDD1，RDD记录了转换信息为RDD[readfile,filter]
3.RDD1通过过滤得到RDD2，RDD记录了转换信息为RDD[readfile,filter,filter2]
4.到运行时，任务就会从文件读取一行行的数据并调用filtert得到新的数据,并将新数据作为filter2的输入，最后得到filter2处理后的数据.

RDD
它是个弹性分布式数据集
弹性:数据是记录了数据是如何生成的，并不是记录了具体的数据，所以具有弹性,转换可以随时加入而不会对数据产生任何影响（数据是行动时才进行数据输入输出的）

分布式:原始数据是存放在分布式系统的，RDD在真实转换过程中数据是分布在和个运行任务的机器中

RDD可以持久化到硬盘或内存当中(因为只是一个描述的信息(数据生成过程的描述信息))，为一个分区的数据集，分区的多少决定了并行计算的粒度；

Spark中存在两种依赖：窄依赖（Narrow Dependencies）、宽依赖（Wide Dependencies）；
　　窄依赖（Narrow Dependencies）：一个父RDD的分区只能被一个子RDD的一个分区使用；
　　宽依赖（Wide Dependencies）：多个子RDD的分区依赖于一个父RDD的同一个分区；

DAG图(有向无环图)

GraphX

https://www.cnblogs.com/sharpxiajun/p/5506822.html (Spark)

分享到：

spring boot 集成 shiro | Hadoop应用基础知识

2018-07-25 16:28
浏览 247
评论(0)
分类:互联网
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论