商人shang

浏览: 1471944 次
性别:
来自: 河北邯郸

最近访客更多访客>>

gary0416

noodless

u012363178

log_cd

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

storm worker异常重启原因排查汇总

博客分类：

错误调试
Storm

storm java executor supervisor

此时此刻，正在等到6.18的到来，趁着没事写个博客，，，

storm集群在worker down掉以后会自动启动新的woker，但是有很多情况下是感觉不应该重启的时候，woker重启了，因此就走上了排查woker重启的道路上~

一、排查思路

经过排查，主要总结有以下几种问题，会导致woker重启：

1. 代码有未捕获的异常

如下例子，因为处理的数据有异常，并且在代码中没有捕获异常，这样Exception被抛给了JVM，导致woker down掉。

对于这样的异常，可以在storm UI界面看到相应的异常信息，因此，排查问题时，可以首先看UI中是否有异常抛出。

java.lang.RuntimeException: java.lang.NumberFormatException: For input string: "赠品"
    at backtype.storm.utils.DisruptorQueue.consumeBatchToCursor(DisruptorQueue.java:90)
    at backtype.storm.utils.DisruptorQueue.consumeBatchWhenAvailable(DisruptorQueue.java:61)
    at backtype.storm.disruptor$consume_batch_when_available.invoke(disruptor.clj:62)
    at backtype.storm.daemon.executor$fn__3498$fn__3510$fn__3557.invoke(executor.clj:730)
    at backtype.storm.util$async_loop$fn__444.invoke(util.clj:403)
    at clojure.lang.AFn.run(AFn.java:24)
    at java.lang.Thread.run(Thread.java:662)
Caused by: java.lang.NumberFormatException: For input string: "赠品"
    at java.lang.NumberFormatException.forInputString(NumberFormatException.java:48)
    at java.lang.Long.parseLong(Long.java:410)
    at java.lang.Long.parseLong(Long.java:468)
    at com.jd.ad.user.service.impl.UserOrderEntireUpdateServiceImpl.processUserOrderEntireData(UserOrderEntireUpdateServiceImpl.java:96)
    at com.jd.a

2、JVM 内存溢出

关于这个问题，没有保留下来当初的现场，主要是由于各种原因导致JVM的垃圾回收机制有问题，最终导致内存溢出，这个问题，也会导致woker退出。

对于此类异常，跟1中的一样，也可以在UI界面中看到的，这个需要具体排查JVM内存溢出的原因。

3、woker 无问题，supervisor重启woker

对于1和2中的问题，抛出来的异常信息都可以在UI界面中以及woker的日志文件中查找到，但是，我们还遇到了另一种情况，就是在woker中找不到任何的异常信息，但是总是随机的会有woker重启。

因为woker中找不到异常信息，这时候就需要查看supervisor中的log信息了，因为supervisor会对本机上的woker中的状态信息进行监控,并且woker的重启也是由supervisor操作的。

此时，查看supervisor中的日志信息可以看到以下内容：

2017-06-17 23:36:08 b.s.d.supervisor [INFO] Shutting down and clearing state for id 867ed61b-a9d5-423e-bb0b-b2e428369140. 
Current supervisor time: 1497713767. State: :timed-out, 
Heartbeat: #backtype.storm.daemon.common.WorkerHeartbeat{:time-secs 1497713735, :storm-id "data_process_1-170-1497518898", 
:executors #{[578 578] [868 868] [1158 1158] [1448 1448] [1738 1738] [-1 -1] [288 288]}, :port 6716}

因此，可以判断为是由于supervisor获取状态信息timeout超时（其实supervisor是获取谁的状态信息，这点还不明确，因为woker的状态信息是在本地文件系统中的，难道是获取executor的状态？这点希望大家拍砖吐槽），导致把woker shut down 了，然后重启了woker。并且此时查看机器的状态，发现zookeeper的机器的CPU负载，会偶尔出现不稳定的状态。如下图：

因此，可以断定是由于supervisor获取状态信息超时导致的。

跟运维沟通，zookeeper的3台机器是跟supervisor部署在同一台机器上面的，因此会造成机器不稳定的情况出现。

平稳度过618，准备回家了。

查看图片附件

1
顶

2
踩

分享到：

消息队列入门理解 | 大数据架构技术

2017-06-18 01:50
浏览 5257
评论(0)
分类:开源软件
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

storm worker异常重启原因排查汇总

一、排查思路

评论

发表评论

相关推荐

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

storm worker异常重启原因排查汇总

一、排查思路

评论

发表评论

相关推荐

Storm的容错性

Linux MAT使用方式

Storm 重启排查（续）

关于 Unable to locate xxx NamespaceHandler for XML schema namespace

Pig script failed to parse: NoViableAltException(84@[])

搞爆storm集群的bug追踪过程

搞爆storm集群的bug追踪过程

storm 性能排查过程

Storm UI 各个参数的含义

Storm 问题排查

一次印象深刻的bug调试经历

【转】Storm【配置项】 - 详细解释

storm 自定义 日志文件

Storm自定义日志

org.apache.jasper.JasperException: Unable to compile class for JSP:

nodejs 安装 express不识别

nodejs 使用app.use(express.bodyParser()); 出错

spring mvc 返回httpstate 406

关于Mybatis的 XML fragments parsed from previous mappers already contains value for

tar: 跳转到下一个头 tar: 由于前次错误，将以上次的错误状态退出

最近访客更多访客>>

storm 自定义日志文件