最新文章列表

Spark核心技术原理透视一(Spark运行原理)

在大数据领域,只有深挖数据科学领域,走在学术前沿,才能在底层算法和模型方面走在前面,从而占据领先地位。 Spark的这种学术基因,使得它从一开始就在大数据领域建立了一定优势。无论是性能,还是方案的统一性,对比传统的Hadoop,优势都非常明显。Spark提供的基于RDD的一体化解决方案,将MapReduce、Streaming、SQL、Machine Learning、Graph Proces ...
加米谷大数据 评论(0) 有364人浏览 2018-03-29 11:49

spark - 宽依赖和窄依赖

(1)血缘关系: 通过血缘关系,可以知道一个RDD是如何从父RDD计算过来的 A  =map=> B =filter=> C   (2)窄依赖:一个父RDD的partition最多被子RDD中的partition使用一次(一父对应一子),窄依赖无shuffle     (3)宽依赖: 父RDD中的一个partition会被子RDD中的partition使用多次(一父多 ...
功夫小当家 评论(0) 有2688人浏览 2018-03-21 20:08

spark - RDD持久化

1.RDD的cache和persist cache:存储级别是MEMORY_ONLY的, 是个transformation,是lazy的,只有触发了action,才会真正执行(spark sql中的cache是立刻执行的) persist:可以指定存储级别 spark使用lru算法移除过期的cache数据,用户也可以手动取消序列化:unpersist(立即执行,不是lazy的) 2. ...
功夫小当家 评论(0) 有628人浏览 2018-03-21 13:37

spark - 启动优化之参数spark.yarn.archive 和 spark.yarn.jars

测试下spark.yarn.archive 和 spark.yarn.jars  参数的作用,官网对这俩参数的描述如下:     (1)spark-defaults.conf配置下面两个参数 spark.yarn.archive    hdfs:// ...
功夫小当家 评论(0) 有5363人浏览 2018-03-20 11:42

spark - RDD梳理

1.RDD是什么? RDD源码中的五个特性:弹性的,分布式的,不可变的,支持并行化操作,可以分区的数据集 五个主要属性: 1个rdd可以有多个partition 如果对1个rdd作用于一个function,其实是对里面的每个split做function,1个split就是一个partition rdd间是有一系列依赖的,例如: (可选)对于(groupbykey)有一个Has ...
功夫小当家 评论(0) 有920人浏览 2018-03-19 20:24

Spark 连接 MongoDB

Spark 连接 Mongodb 官方地址:https://www.mongodb.com/products/spark-connector 使用时候遇到一个问题,就是通过MongodbConnector 连接 Mongodb 时候,如果mongodb 是有密码验证的,一直不能通过验证: 一直报错:not authorized on admin to execute command 引用[WAR ...
yi_17328214 评论(0) 有3345人浏览 2018-03-07 09:55

Spark Streaming实时流处理项目实战

Spark Streaming实时流处理项目实战 网盘地址:https://pan.baidu.com/s/1psKNKnIsz7Y1Xdp5rRZuVQ 密码: gcie 备用地址(腾讯微云):https://share.weiyun.com/176190792247a0fba33c6c67 ...
天地合1 评论(0) 有26人浏览 2018-03-07 08:56

Spark分布式环境搭建

参考链接1:https://www.cnblogs.com/purstar/p/6293605.html 参考链接2:http://blog.csdn.net/xiaoxiangzi222/article/details/52757168 一、spark集群搭建 这里介绍spark的集群安装,需要依赖于hadoop的集群 所以,首先搭建了一个hadoop集群,1个master,2个sla ...
elfasd 评论(0) 有1007人浏览 2018-02-09 14:30

Spark如何读取一些大数据集到本地机器上

最近在使用spark处理分析一些公司的埋点数据,埋点数据是json格式,现在要解析json取特定字段的数据,做一些统计分析,所以有时候需要把数据从集群 ...
qindongliang1922 评论(0) 有1680人浏览 2018-01-04 21:07

使用Spark SQL的临时表解决一个小问题

最近在使用spark处理一个业务场景时,遇到一个小问题,我在scala代码里,使用spark sql访问hive的表,然后根据一批id把需要的数据过滤出来,本来是非常简单的需求直接使用下面的伪SQL即可: ```` select * from table where id in (id1,id2,id3,id4,idn) ```` 但现在遇到的问题是id条件比较多,大概有几万个,这样量级 ...
qindongliang1922 评论(0) 有2453人浏览 2017-12-28 18:27

Spark任务两个小问题笔记

今天在用spark处理数据的时候,遇到两个小问题,特此笔记一下。 两个问题都与网络交互有关,大致处理场景是,在driver端会提前获取组装一批数据, ...
qindongliang1922 评论(0) 有1649人浏览 2017-12-26 19:52

Spark中foreachPartition和mapPartitions的区别

spark的运算操作有两种类型:分别是Transformation和Action,区别如下: Transformation:代表的是转化操作就是我们的计算流程,返回是RDD[T],可以是一个链式的转化,并且是延迟触发的。 Action:代表是一个具体的行为,返回的值非RDD类型,可以一个object,或者是一个数值,也可以为Unit代表无返回值,并且action会立即触发job的执行。 ...
qindongliang1922 评论(0) 有3325人浏览 2017-12-25 21:19

Spark系列文章列表

 一、 Spark - Cluster Mode概述(翻译) 
商人shang 评论(0) 有507人浏览 2017-12-09 02:09

Spark - Cluster Mode概述(翻译)

这个文档简要的介绍下Spark是怎么样在集群模式中运行的,以方便更容易的理解其涉及到的组件。可以通过阅读 application submission guide来了解怎么样在集群中运行应用程序。   Components Spark应用程序作为独立的进程集运行,它们是由 main程序(称为driver程序)中的SparkContext 对象进行协调的。 特别地,在集群上运行是,Spar ...
商人shang 评论(0) 有1606人浏览 2017-12-09 02:03

Spark Streaming优雅的关闭策略优化

前面文章介绍了不少有关Spark Streaming的offset的管理以及如何优雅的关闭Spark Streaming的流程序。 到目前为止还有几个问题: (1)有关spark streaming集成kafka时,如果kafka新增分区, 那么spark streaming程序能不能动态识别到而不用重启? (2)如果需要重启,那么在自己管理offset时,如何才能识别到新增的分区? ...
qindongliang1922 评论(0) 有4149人浏览 2017-12-07 19:26

Tigase服务安装及配合Spark客户端通信

1 下载Tigase 下载tigase-server-7.1.2-b4471.jar----https://projects.tigase.org/projects/tigase-server/files  Tigase安装配置 参考文献:https://wenku.baidu.com/view/2d3da03426fff705cd170a01.html 下载 spark客户端 官网 ht ...
wangzhigang2 评论(0) 有1230人浏览 2017-12-05 19:57

kafka版本不一致导致的一个小问题(二)

背景介绍: 我们公司的实时流项目现在用的spark streaming比较多,这里在介绍下版本: spark streaming2.1.0 kafka 0.9.0.0 spark streaming如果想要集成kafka使用时,必须得使用spark官网提供的依赖包,目前有两种大的kafka分支依赖集成包,他们的一些信息如下: 描述信息 | spark-streaming-kafka ...
qindongliang1922 评论(0) 有8565人浏览 2017-12-04 21:37

理解Spark的运行机制

Spark生态系统目前已经非常成熟了,有很多类型的任务都可以使用spark完成,我们先看下spark生态系统的组成:   spark的核心主要由3个模块组成: (1)spark core 是spark的最底层的编程实现,定义了许多的函数及方法,是所有spark组件的基础依赖 (2)spark ecosystems 是spark里面的一些高级组件,基本就是我们最常用 ...
qindongliang1922 评论(0) 有1246人浏览 2017-11-23 21:52

最近博客热门TAG

Java(141747) C(73651) C++(68608) SQL(64571) C#(59609) XML(59133) HTML(59043) JavaScript(54918) .net(54785) Web(54513) 工作(54116) Linux(50906) Oracle(49876) 应用服务器(43288) Spring(40812) 编程(39454) Windows(39381) JSP(37542) MySQL(37268) 数据结构(36423)

博客人气排行榜

    博客电子书下载排行

      >>浏览更多下载

      相关资讯

      相关讨论

      Global site tag (gtag.js) - Google Analytics