SparkStreaming如何优雅的停止服务

qindongliang1922

浏览: 2188881 次
性别:
来自: 北京

最近访客更多访客>>

北风norther

godandghost

youhere

tanss

博主相关

博客

微博

相册

留言

关于我

博客专栏

: 证道Lucene4
浏览量：117670

: 证道Hadoop
浏览量：126075

: 证道shell编程
浏览量：60034

: ELK修真
浏览量：71402

文章分类

社区版块

存档分类

博客分类：

Spark

spark sparkstreaming

我们都知道SparkStreaming程序是一个长服务，一旦运转起来不会轻易停掉，那么如果我们想要停掉正在运行的程序应该怎么做呢？

如果运行的是spark on yarn模式直接使用

yarn application -kill  taskId

暴力停掉sparkstreaming是有可能出现问题的，比如你的数据源是kafka，已经加载了一批数据到sparkstreaming中正在处理，如果中途停掉，这个批次的数据很有可能没有处理完，就被强制stop了，下次启动时候会重复消费或者部分数据丢失。

如何解决？

1.4之前的版本，需要一个钩子函数：

       sys.ShutdownHookThread 
         {
            log.info("Gracefully stopping Spark Streaming Application")
            ssc.stop(true, true)
            log.info("Application stopped")
          }

1.4之后的版本，比较简单，只需要在SparkConf里面设置下面的参数即可：

 sparkConf.set("spark.streaming.stopGracefullyOnShutdown","true")

然后，如果需要停掉sparkstreaming程序时：

（1）登录spark ui页面在executors页面找到driver程序所在的机器

（2）使用ssh命令登录这台机器上，执行下面的命令通过端口号找到主进程然后kill掉

ss -tanlp |  grep 55197|awk '{print $6}'|awk  -F, '{print $2}'|xargs kill -15

注意上面的操作执行后，sparkstreaming程序，并不会立即停止，而是会把当前的批处理里面的数据处理完毕后
才会停掉，此间sparkstreaming不会再消费kafka的数据，这样以来就能保证结果不丢和重复。

此外还有一个问题是，spark on yarn模式下，默认的情况driver程序的挂了，会自动再重启一次，作为高可用，也就是上面的操作
你可能要执行两次，才能真能的停掉程序，当然我们也可以设置驱动程序一次挂掉之后，就真的挂掉了，这样就没有容灾机制了，需要慎重考虑：

 --conf spark.yarn.maxAppAttempts=1

上面的步骤还是有点复杂的，当然在网上有朋友提出在HDFS上建立一个文件，通过程序主动扫描来判断是否应该停止，这样的话不需要经历前面停止的繁琐的方式，后面有机会可以尝试一下。

参考文章：

http://blog.parseconsulting.com/2017/02/how-to-shutdown-spark-streaming-job.html

http://why-not-learn-something.blogspot.jp/2016/05/apache-spark-streaming-how-to-do.html

有什么问题可以扫码关注微信公众号：我是攻城师(woshigcs)，在后台留言咨询。技术债不能欠，健康债更不能欠，求道之路，与君同行。

0
顶

0
踩

分享到：

hbase表数据备份策略 | ElasticSearch聚合查询小例子

2017-03-22 14:08
浏览 4165
评论(0)
分类:编程语言
查看更多

发表评论

您还没有登录,请您登录后再发表评论