本月博客排行
-
第1名
龙儿筝 -
第2名
lerf -
第3名
fantaxy025025 - johnsmith9th
- xiangjie88
- zysnba
年度博客排行
-
第1名
青否云后端云 -
第2名
宏天软件 -
第3名
gashero - wy_19921005
- vipbooks
- benladeng5225
- e_e
- wallimn
- javashop
- ranbuijj
- fantaxy025025
- jickcai
- gengyun12
- zw7534313
- qepwqnp
- 解宜然
- ssydxa219
- zysnba
- sam123456gz
- sichunli_030
- arpenker
- tanling8334
- gaojingsong
- kaizi1992
- xpenxpen
- 龙儿筝
- jh108020
- wiseboyloves
- ganxueyun
- xyuma
- xiangjie88
- wangchen.ily
- Jameslyy
- luxurioust
- lemonhandsome
- mengjichen
- jbosscn
- zxq_2017
- lzyfn123
- nychen2000
- forestqqqq
- wjianwei666
- ajinn
- zhanjia
- Xeden
- hanbaohong
- java-007
- 喧嚣求静
- mwhgJava
- kingwell.leng
最新文章列表
spark - RDD持久化
1.RDD的cache和persist
cache:存储级别是MEMORY_ONLY的, 是个transformation,是lazy的,只有触发了action,才会真正执行(spark sql中的cache是立刻执行的)
persist:可以指定存储级别
spark使用lru算法移除过期的cache数据,用户也可以手动取消序列化:unpersist(立即执行,不是lazy的)
2. ...
spark - 启动优化之参数spark.yarn.archive 和 spark.yarn.jars
测试下spark.yarn.archive 和 spark.yarn.jars 参数的作用,官网对这俩参数的描述如下:
(1)spark-defaults.conf配置下面两个参数
spark.yarn.archive hdfs:// ...
spark - RDD梳理
1.RDD是什么?
RDD源码中的五个特性:弹性的,分布式的,不可变的,支持并行化操作,可以分区的数据集
五个主要属性:
1个rdd可以有多个partition
如果对1个rdd作用于一个function,其实是对里面的每个split做function,1个split就是一个partition
rdd间是有一系列依赖的,例如:
(可选)对于(groupbykey)有一个Has ...
Spark 连接 MongoDB
Spark 连接 Mongodb
官方地址:https://www.mongodb.com/products/spark-connector
使用时候遇到一个问题,就是通过MongodbConnector 连接 Mongodb 时候,如果mongodb 是有密码验证的,一直不能通过验证:
一直报错:not authorized on admin to execute command
引用[WAR ...
Spark Streaming实时流处理项目实战
Spark Streaming实时流处理项目实战
网盘地址:https://pan.baidu.com/s/1psKNKnIsz7Y1Xdp5rRZuVQ 密码: gcie
备用地址(腾讯微云):https://share.weiyun.com/176190792247a0fba33c6c67 ...
使用Spark SQL的临时表解决一个小问题
最近在使用spark处理一个业务场景时,遇到一个小问题,我在scala代码里,使用spark sql访问hive的表,然后根据一批id把需要的数据过滤出来,本来是非常简单的需求直接使用下面的伪SQL即可:
````
select * from table where id in (id1,id2,id3,id4,idn)
````
但现在遇到的问题是id条件比较多,大概有几万个,这样量级 ...
Spark中foreachPartition和mapPartitions的区别
spark的运算操作有两种类型:分别是Transformation和Action,区别如下:
Transformation:代表的是转化操作就是我们的计算流程,返回是RDD[T],可以是一个链式的转化,并且是延迟触发的。
Action:代表是一个具体的行为,返回的值非RDD类型,可以一个object,或者是一个数值,也可以为Unit代表无返回值,并且action会立即触发job的执行。
...
Spark - Cluster Mode概述(翻译)
这个文档简要的介绍下Spark是怎么样在集群模式中运行的,以方便更容易的理解其涉及到的组件。可以通过阅读 application submission guide来了解怎么样在集群中运行应用程序。
Components
Spark应用程序作为独立的进程集运行,它们是由 main程序(称为driver程序)中的SparkContext 对象进行协调的。
特别地,在集群上运行是,Spar ...
Spark Streaming优雅的关闭策略优化
前面文章介绍了不少有关Spark Streaming的offset的管理以及如何优雅的关闭Spark Streaming的流程序。
到目前为止还有几个问题:
(1)有关spark streaming集成kafka时,如果kafka新增分区, 那么spark streaming程序能不能动态识别到而不用重启?
(2)如果需要重启,那么在自己管理offset时,如何才能识别到新增的分区?
...
Tigase服务安装及配合Spark客户端通信
1 下载Tigase 下载tigase-server-7.1.2-b4471.jar----https://projects.tigase.org/projects/tigase-server/files
Tigase安装配置 参考文献:https://wenku.baidu.com/view/2d3da03426fff705cd170a01.html
下载 spark客户端 官网 ht ...
kafka版本不一致导致的一个小问题(二)
背景介绍:
我们公司的实时流项目现在用的spark streaming比较多,这里在介绍下版本:
spark streaming2.1.0
kafka 0.9.0.0
spark streaming如果想要集成kafka使用时,必须得使用spark官网提供的依赖包,目前有两种大的kafka分支依赖集成包,他们的一些信息如下:
描述信息 | spark-streaming-kafka ...
理解Spark的运行机制
Spark生态系统目前已经非常成熟了,有很多类型的任务都可以使用spark完成,我们先看下spark生态系统的组成:
spark的核心主要由3个模块组成:
(1)spark core 是spark的最底层的编程实现,定义了许多的函数及方法,是所有spark组件的基础依赖
(2)spark ecosystems 是spark里面的一些高级组件,基本就是我们最常用 ...