- 浏览: 501372 次
- 性别:
- 来自: 广州
文章分类
- 全部博客 (502)
- Java (70)
- Linux (10)
- 数据库 (38)
- 网络 (10)
- WEB (13)
- JSP (4)
- 互联网 (71)
- JavaScript (30)
- Spring MVC (19)
- HTML (13)
- CSS (3)
- AngularJS (18)
- Redis (5)
- Bootstrap CSS (1)
- ZooKeeper (4)
- kafka (6)
- 服务器缓存 (4)
- Storm (1)
- MongoDB (9)
- Spring boot (16)
- log4j (2)
- maven (3)
- nginx (5)
- Tomcat (2)
- Eclipse (4)
- Swagger (2)
- Netty (5)
- Dubbo (1)
- Docker (7)
- Hadoop (12)
- OAuth (1)
- webSocket (4)
- 服务器性能 (7)
- Session共享 (1)
- tieye修改 (1)
- 工作 (1)
- 有用的语录 (0)
- https (2)
- common (5)
- 产品开发管理 (1)
- CDN 工作原理 (1)
- APNS、GCM (1)
- 架构图 (3)
- 功能实现分析 (1)
- JMX (1)
- 服务器相关操作命令 (1)
- img02 (0)
- 服务器环境搭建 (9)
- goodMenuBook (1)
- CEInstantPot (0)
- 有用数据 (1)
- 百度地图WEB API (2)
- 正则表达式 (1)
- 样式例子 (2)
- staticRecipePressureCooker.zip (1)
- jCanvas (1)
- 网站攻击方法原理 (1)
- 架构设计 (3)
- 物联网相关 (3)
- 研发管理 (7)
- 技术需求点 (1)
- 计划 (1)
- spring cloud (11)
- 服务器开发的一些实用工具和方法 (1)
- 每天学到的技术点 (4)
- Guava (1)
- ERP 技术注意要点 (2)
- 微信小程序 (1)
- FineRepor (1)
- 收藏夹 (1)
- temp (5)
- 服务架构 (4)
- 任职资格方案 (0)
- osno_test (1)
- jquery相关 (3)
- mybatis (4)
- ueditor (1)
- VueJS (7)
- python (10)
- Spring EL (1)
- shiro (1)
- 前端开发原理与使用 (7)
- YARN (1)
- Spark (1)
- Hbase (2)
- Pig (2)
- 机器学习 (30)
- matplotlib (1)
- OpenCV (17)
- Hystrix (1)
- 公司 (1)
- miniui (4)
- 前端功能实现 (3)
- 前端插件 (1)
- 钉钉开发 (2)
- Jenkins (1)
- elasticSearch使用 (2)
- 技术规范 (4)
- 技术实现原理 (0)
最新评论
spark基础知识
Apache Spark是一个围绕速度、易用性和复杂分析构建的大数据处理框架
官方资料介绍Spark可以将Hadoop集群中的应用在内存中的运行速度提升100倍,甚至能够将应用在磁盘上的运行速度提升10倍
Hadoop有两个核心模块,分布式存储模块HDFS和分布式计算模块Mapreduce
spark本身并没有提供分布式文件系统,因此spark的分析大多依赖于Hadoop的分布式文件系统HDFS
Hadoop的Mapreduce与spark都可以进行数据计算,而相比于Mapreduce,spark的速度更快并且提供的功能更加丰富
Spark Core:包含Spark的基本功能;尤其是定义RDD的API、操作以及这两者上的动作。其他Spark的库都是构建在RDD和Spark Core之上的
Spark SQL:提供通过Apache Hive的SQL变体Hive查询语言(HiveQL)与Spark进行交互的API。每个数据库表被当做一个RDD,Spark SQL查询被转换为Spark操作。
Spark Streaming:对实时数据流进行处理和控制。Spark Streaming允许程序能够像普通RDD一样处理实时数据
MLlib:一个常用机器学习算法库,算法被实现为对RDD的Spark操作。这个库包含可扩展的学习算法,比如分类、回归等需要对大量数据集进行迭代的操作。
GraphX:控制图、并行图操作和计算的一组算法和工具的集合。GraphX扩展了RDD API,包含控制图、创建子图、访问路径上所有顶点的操作
Spark运行特点:
每个Application获取专属的executor进程,该进程在Application期间一直驻留,并以多线程方式运行Task。这种Application隔离机制是有优势的,无论是从调度角度看(每个Driver调度他自己的任务),还是从运行角度看(来自不同Application的Task运行在不同JVM中),当然这样意味着Spark Application不能跨应用程序共享数据,除非将数据写入外部存储系统
Spark与资源管理器无关,只要能够获取executor进程,并能保持相互通信就可以了
提交SparkContext的Client应该靠近Worker节点(运行Executor的节点),最好是在同一个Rack里,因为Spark Application运行过程中SparkContext和Executor之间有大量的信息交换
Task采用了数据本地性和推测执行的优化机制
spark基础知识
https://blog.csdn.net/swing2008/article/details/60869183
支持多种编程语言接口:Java、Scala、Python,许多大公司如IBM等大力支持推广Spark的发展;
介绍了 Spark 的安装,Spark shell 、RDD、Spark SQL、Spark Streaming 等的基本使用。
RDD
RDD记录是的数据的来源,和数据是通过什么方式由原数据转换得来(转换方法),每一个转换的方式(转换方法)都有所记录下来,所以一个个RDD是有链接关系的。
转换的过程中是不会进行相关运算和数据生成的,只是记录了相关的转换过程信息,当遇到行动方法时就取出RDD中的转换过程从头到尾进行相关的转换运算,这样的可以不保存中间转换结果,而减少数据复制和落盘的操作了
例子:
1.通过读取文件生成一个RDD,RDD记录了转换信息为RDD[readfile]
2.RDD通过过滤得到RDD1,RDD记录了转换信息为RDD[readfile,filter]
3.RDD1通过过滤得到RDD2,RDD记录了转换信息为RDD[readfile,filter,filter2]
4.到运行时,任务就会从文件读取一行行的数据并调用filtert得到新的数据,并将新数据作为filter2的输入,最后得到filter2处理后的数据.
RDD
它是个弹性分布式数据集
弹性:数据是记录了数据是如何生成的,并不是记录了具体的数据,所以具有弹性,转换可以随时加入而不会对数据产生任何影响(数据是行动时才进行数据输入输出的)
分布式:原始数据是存放在分布式系统的,RDD在真实转换过程中数据是分布在和个运行任务的机器中
RDD可以持久化到硬盘或内存当中(因为只是一个描述的信息(数据生成过程的描述信息)),为一个分区的数据集,分区的多少决定了并行计算的粒度;
Spark中存在两种依赖:窄依赖(Narrow Dependencies)、宽依赖(Wide Dependencies);
窄依赖(Narrow Dependencies):一个父RDD的分区只能被一个子RDD的一个分区使用;
宽依赖(Wide Dependencies):多个子RDD的分区依赖于一个父RDD的同一个分区;
DAG图(有向无环图)
GraphX
https://www.cnblogs.com/sharpxiajun/p/5506822.html (Spark)
Apache Spark是一个围绕速度、易用性和复杂分析构建的大数据处理框架
官方资料介绍Spark可以将Hadoop集群中的应用在内存中的运行速度提升100倍,甚至能够将应用在磁盘上的运行速度提升10倍
Hadoop有两个核心模块,分布式存储模块HDFS和分布式计算模块Mapreduce
spark本身并没有提供分布式文件系统,因此spark的分析大多依赖于Hadoop的分布式文件系统HDFS
Hadoop的Mapreduce与spark都可以进行数据计算,而相比于Mapreduce,spark的速度更快并且提供的功能更加丰富
Spark Core:包含Spark的基本功能;尤其是定义RDD的API、操作以及这两者上的动作。其他Spark的库都是构建在RDD和Spark Core之上的
Spark SQL:提供通过Apache Hive的SQL变体Hive查询语言(HiveQL)与Spark进行交互的API。每个数据库表被当做一个RDD,Spark SQL查询被转换为Spark操作。
Spark Streaming:对实时数据流进行处理和控制。Spark Streaming允许程序能够像普通RDD一样处理实时数据
MLlib:一个常用机器学习算法库,算法被实现为对RDD的Spark操作。这个库包含可扩展的学习算法,比如分类、回归等需要对大量数据集进行迭代的操作。
GraphX:控制图、并行图操作和计算的一组算法和工具的集合。GraphX扩展了RDD API,包含控制图、创建子图、访问路径上所有顶点的操作
Spark运行特点:
每个Application获取专属的executor进程,该进程在Application期间一直驻留,并以多线程方式运行Task。这种Application隔离机制是有优势的,无论是从调度角度看(每个Driver调度他自己的任务),还是从运行角度看(来自不同Application的Task运行在不同JVM中),当然这样意味着Spark Application不能跨应用程序共享数据,除非将数据写入外部存储系统
Spark与资源管理器无关,只要能够获取executor进程,并能保持相互通信就可以了
提交SparkContext的Client应该靠近Worker节点(运行Executor的节点),最好是在同一个Rack里,因为Spark Application运行过程中SparkContext和Executor之间有大量的信息交换
Task采用了数据本地性和推测执行的优化机制
spark基础知识
https://blog.csdn.net/swing2008/article/details/60869183
支持多种编程语言接口:Java、Scala、Python,许多大公司如IBM等大力支持推广Spark的发展;
介绍了 Spark 的安装,Spark shell 、RDD、Spark SQL、Spark Streaming 等的基本使用。
RDD
RDD记录是的数据的来源,和数据是通过什么方式由原数据转换得来(转换方法),每一个转换的方式(转换方法)都有所记录下来,所以一个个RDD是有链接关系的。
转换的过程中是不会进行相关运算和数据生成的,只是记录了相关的转换过程信息,当遇到行动方法时就取出RDD中的转换过程从头到尾进行相关的转换运算,这样的可以不保存中间转换结果,而减少数据复制和落盘的操作了
例子:
1.通过读取文件生成一个RDD,RDD记录了转换信息为RDD[readfile]
2.RDD通过过滤得到RDD1,RDD记录了转换信息为RDD[readfile,filter]
3.RDD1通过过滤得到RDD2,RDD记录了转换信息为RDD[readfile,filter,filter2]
4.到运行时,任务就会从文件读取一行行的数据并调用filtert得到新的数据,并将新数据作为filter2的输入,最后得到filter2处理后的数据.
RDD
它是个弹性分布式数据集
弹性:数据是记录了数据是如何生成的,并不是记录了具体的数据,所以具有弹性,转换可以随时加入而不会对数据产生任何影响(数据是行动时才进行数据输入输出的)
分布式:原始数据是存放在分布式系统的,RDD在真实转换过程中数据是分布在和个运行任务的机器中
RDD可以持久化到硬盘或内存当中(因为只是一个描述的信息(数据生成过程的描述信息)),为一个分区的数据集,分区的多少决定了并行计算的粒度;
Spark中存在两种依赖:窄依赖(Narrow Dependencies)、宽依赖(Wide Dependencies);
窄依赖(Narrow Dependencies):一个父RDD的分区只能被一个子RDD的一个分区使用;
宽依赖(Wide Dependencies):多个子RDD的分区依赖于一个父RDD的同一个分区;
DAG图(有向无环图)
GraphX
https://www.cnblogs.com/sharpxiajun/p/5506822.html (Spark)
发表评论
-
大数据相关安装和测试
2019-08-05 22:32 337大数据相关安装和测试 -
hadoop MR运行原理
2018-08-25 11:36 846hadoop MR运行原理 http://s5.51cto. ... -
迭代计算原理
2018-08-21 17:48 1259迭代计算原理 把上一步的计算结果代入这一步的运算中去。。 ... -
hive 原理与安装
2018-08-12 17:39 462hive 原理与安装 hive 是把类似SQL的语 ... -
ssh原理和使用
2018-08-10 21:10 662SSH 远程登陆原理: 使用密码登录,每次都必须输入密码 ... -
hadoop 集群运行的原理与使用
2018-08-09 16:43 854hadoop 集群运行的原理与使用 就是在每台服务器上分别 ... -
hadoop安装
2018-08-08 21:30 346//----------------------------- ... -
Hadoop应用基础知识
2018-07-25 15:57 471hadoop (1)Hadoop是一个开源 ... -
Hadoop 与 JStrom 的应用场景和区别
2016-11-25 14:19 452Hadoop 与 JStrom 的应用场 ... -
Hadoop MapReduce框架详解
2016-11-25 14:19 474Hadoop MapReduce框架详解 ... -
HDFS的运行原理
2016-09-10 16:16 444HDFS的运行原理 简介 HDF ...
相关推荐
spark基础知识思维导图整理,包括SparkCore和SparkSQL
这个"spark基础知识.zip"压缩包包含了多个PDF文档,覆盖了Spark的各个方面,从基础入门到高级实践,适合对Spark感兴趣或正在学习Spark的人员。 1. **Spark大数据架构概述** (1 Spark大数据架构概述.pdf) - Spark的...
spark基础知识,原理相关。spark基础知识,原理相关。
Spark下载 Spark的Shells Spark的核心概念
而RDD是Spark的基础数据结构,是不可变的、分区的、容错的数据集,适用于各种数据处理操作,如map、filter和join等。 Spark的RDD设计中包含了两种依赖类型:宽依赖和窄依赖,这决定了任务调度和数据分区的方式。...
**Spark基础知识I-Spark简介** Spark,作为大数据处理领域中的明星框架,因其高效、易用和灵活的特点,已经成为许多企业和开发者进行大规模数据处理的首选工具。Spark的核心设计理念是提供一个统一的平台,支持多种...
(一)Spark基础知识 (1)输入start-all.sh启动hadoop相应进程和相关的端口号 (2)启动Spark分布式集群并查看信息 (3)网页端查看集群信息 (4)启动spark-shell控制台 1:local模式启动 2:登录master服务器,在...
Spark基础知识** Spark的核心设计是基于分布式内存计算模型,它引入了Resilient Distributed Datasets (RDDs)的概念,这是一种可分区的、只读的数据集,可以在集群中的多个节点上并行操作。RDDs支持两种主要操作:...
1. **第2章**:Spark基础知识与安装配置 - Spark的起源、架构和设计理念 - RDD(弹性分布式数据集)的概念、特点和操作 - Spark Core模块的职责与功能 - Spark的安装步骤,包括Hadoop集成与本地模式、集群模式的...
《大数据Spark企业级实战 完整版》是针对已经具备一定Spark基础知识的学习者提供的一份实践指导资料。这本书深入探讨了Spark在实际企业环境中的应用,旨在弥补理论学习与实际操作之间的差距,帮助读者提升技能并更好...
spark基础知识,包含了RDD介绍,本地调试,spark-shell 交互式,spark-submit 提交
本文档主要介绍了基于Spark的大规模推荐系统特征工程的实现,包括推荐系统的架构、Spark基础知识、FESQL引擎、LLVM优化等内容。 首先,本文档介绍了推荐系统的重要性,指出推荐系统在Amazon、Netflix等平台中的应用...
Spark 基础知识点总结 Spark 是一个快速的集群运算平台,以及一系列处理大型数据集的工具包。它最显著的特点就是处理大型数据的能力。 一、Spark 的安装和配置 Spark 的安装和配置其实可以是异常简单的。只需要...
1. **Spark基础知识**:了解Spark的基本架构,包括RDD(弹性分布式数据集)、DataFrame和Dataset,以及它们之间的关系和应用场景。理解Spark的并行计算模型,如Stage和Task的概念,以及如何通过SparkConf和...
**一、Spark基础知识** Spark是一个快速、通用且可扩展的大数据处理框架,它提供了统一的API用于批处理、交互式查询、流处理和机器学习任务。Spark SQL是Spark的一个模块,允许用户使用SQL或DataFrame API对数据进行...
它适合有一定Spark基础知识的开发者和工程师,也适合正在探索Spark应用的技术人员,尤其是那些对大数据分析、处理和学习感兴趣的读者。通过阅读本书,读者将能大幅提升自己在大数据处理领域的实战能力,并能够有效地...
### Spark基础知识 Spark的核心设计理念是提供一个基于内存计算的分布式计算框架,以提升大数据处理的速度。它支持批处理、交互式查询(Spark SQL)、实时流处理(Spark Streaming)和机器学习(MLlib)。Spark的...
Spark 是一种与 Hadoop 相似的开源集群计算环境,但是两者之间还存在一些不同之处,这些有用的不同之处使 Spark 在某些工作负载方面表现得更加优越,换句话说,Spark 启用了内存分布数据集,除了能够提供交互式查询...