Tomcat进程意外退出的问题分析
节前某个部门的测试环境反馈tomcat会意外退出,我们到实际环境排查后发现不是jvm crash,日志里有进程销毁的记录,从pause到destory的整个过程:
org.apache.coyote.AbstractProtocol pause
Pausing ProtocolHandler
org.apache.catalina.core.StandardService stopInternal
Stopping service Catalina
org.apache.coyote.AbstractProtocol stop
Stopping ProtocolHandler
org.apache.coyote.AbstractProtocol destroy
Destroying ProtocolHandler
从上面日志来可以判断:
1) tomcat不是通过脚本正常关闭(viaport: 即通过8005端口发送shutdown指令)
因为正常关闭(viaport)的话会在 pause 之前有这样的一句warn日志:
org.apache.catalina.core.StandardServer await
A valid shutdown command was received via the shutdown port. Stopping the Server instance.
然后才是 pause -> stop -> destory
2) tomcat的shutdownhook被触发,执行了销毁逻辑
而这又有两种情况,一是应用代码里有地方用System.exit
来退出jvm,二是系统发的信号(kill -9
除外,SIGKILL信号JVM不会有机会执行shutdownhook)
先通过排查代码,应用方和中间件团队都排查了System.exit
在这个应用中使用的可能。那就只剩下Signal的情况了;经过一番排查后,发现每次tomcat意外退出的时间与ssh会话结束的时间正好吻合。
有了这个线索之后,银时同学立刻看了一下对方测试环境的脚本,简化后如下:
$ cat test.sh
#!/bin/bash
cd /data/server/tomcat/bin/
./catalina.sh start
tail -f /data/server/tomcat/logs/catalina.out
tomcat启动为后,当前shell进程并没有退出,而是挂住在tail进程,往终端输出日志内容。这种情况下,如果用户直接关闭ssh终端的窗口(用鼠标或快捷键),则java进程也会退出。而如果先ctrl-c
终止test.sh进程,然后再关闭ssh终端的话,则java进程不会退出。
这是一个有趣的现象,catalina.sh start
方式启动的tomcat会把java进程挂到init
(进程id为1)的父进程下,已经与当前test.sh
进程脱离了父子关系,也与ssh进程没有关系,为什么关闭ssh终端窗口会导致java进程退出?
我们的推测是ssh窗口在关闭时,对当前交互的shell以及正在运行的test.sh等子进程发送某个退出的Signal,找了一台装有systemtap的机器来验证,所用的stap脚本是从涧泉同学那里copy的:
function time_str: string () {
return ctime(gettimeofday_s() + 8 * 60 * 60);
}
probe begin {
printdln(" ", time_str(), "BEGIN");
}
probe end {
printdln(" ", time_str(), "END");
}
probe signal.send {
if (sig_name == "SIGHUP" || sig_name == "SIGQUIT" ||
sig_name=="SIGINT" || sig_name=="SIGKILL" || sig_name=="SIGABRT") {
printd(" ", time_str(), sig_name, "[", uid(), pid(), cmdline_str(),
"] -> [", task_uid(task), sig_pid, pid_name, "], ");
task = pid2task(pid());
while (task_pid(task) > 0) {
printd(" ", "[", task_uid(task), task_pid(task), task_execname(task), "]");
task = task_parent(task);
}
println("");
}
}
模拟时的进程层级(pstree)大致如下,tomcat启动后java进程已经脱离test.sh,挂在init下:
|-sshd(1622)-+-sshd(11681)---sshd(11699)---bash(11700)---test.sh(13285)---tail(13299)
经过内核组伯俞的协助,我们发现
a) 用 ctrl-c 终止当前test.sh进程时,系统events进程向 java 和 tail 两个进程发送了SIGINT
信号
SIGINT [ 0 11 ] -> [ 0 20629 tail ]
SIGINT [ 0 11 ] -> [ 0 20628 java ]
SIGINT [ 0 11 ] -> [ 0 20615 test.sh ]
注pid 11是events进程
b) 关闭ssh终端窗口时,sshd向下游进程发送SIGHUP
, 为何java进程也会收到?
SIGHUP [ 0 11681 sshd: hongjiang.wanghj [priv] ] -> [ 57316 11700 bash ]
SIGHUP [ 57316 11700 -bash ] -> [ 57316 11700 bash ]
SIGHUP [ 57316 11700 ] -> [ 0 13299 tail ]
SIGHUP [ 57316 11700 ] -> [ 0 13298 java ]
SIGHUP [ 57316 11700 ] -> [ 0 13285 test.sh ]
不过伯俞很忙没有继续协助分析这个问题(他给出了一些猜测,但后来证明并不是那样)。
确定了是由signal引起的之后,我的疑惑变成了:
1) 为什么SIGINT
(kill -2) 不会让tomcat进程退出?
2) 为什么SIGHUP
(kill -1) 会让tomcat进程退出?
我第一反应可能是jvm在某些参数下(或因为某些jni)对os的信号处理会不同,看了一下应用的jvm参数,没有看出问题,也排除了tomcat使用apr/tcnative的情况。
我们看一下默认情况下,jvm进程对SIGINT
和SIGHUP
是怎么处理的,用scala的repl模拟一下:
scala> Runtime.getRuntime().addShutdownHook(
new Thread() { override def run() { println("ok") } })
对这个java进程分别用kill -2
和kill -1
发现都会导致jvm进程退出,并且也触发shutdownhook
。这也符合oracle对hotspot虚拟机处理Signal的说明,参考这里,SIGTERM
,SIGINT
,SIGHUP
三种信号都会触发shutdownhook
看来并不是jvm的事,继续猜测是否与进程的状态有关?catalina.sh脚本里并没有使用start-stop-daemon
之类的方式启动java进程,start参数的执行方式简化后脚本相当于:
eval '"/pathofjdk/bin/java"' 'params' org.apache.catalina.startup.Bootstrap start '&'
就是简单的把java放到后台执行。当catalina.sh自身进程退出后,java进程的ppid变成了1
花了很多的时间猜测可能是OS层面的原因,后来发现并没有关系。春节后回来让少明和涧泉也一起分析这个问题,因为他们有c的背景,对系统底层知道的多一些,用了大半天时间,不断猜测和验证,最后确认了是Shell的原因。
SIGINT
(kill -2) 不会让后台java进程退出的原因
为了简便,我们用sleep来模拟进程,当我们在交互模式下:
$ sleep 1000 &
$ ps -opid,pgid,ppid,stat,cmd -C sleep
PID PGID PPID STAT CMD
9897 9897 9813 S sleep 1000
注意,进程sleep 1000
的pid与pgid(进程组)是相同的,这时我们用kill -2
是可以杀掉sleep 1000
进程的。
现在我们把sleep进程放到一个脚本里后台执行:
$ cat a.sh
#!/bin/sh
sleep 4400 &
echo "shell exit"
运行a.sh脚本之后,sleep 4400
进程的pid与pgid是不同的,pgid是其父进程的id,即已经退出了的a.sh进程
$ ps -opid,pgid,ppid,comm -p 63376
PID PGID PPID COMM
63376 63375 1 sleep
这时我们用kill -2
是杀不掉sleep 4400
进程的。
到了这一步,已经非常接近原因了,一定是shell对后台进程signal_handler
做了什么手脚。少明实现了一个自定handler的命令看看是否对kill -2
有效:
#include <stdio.h>
#include <signal.h>
#include <stdlib.h>
void my_handler(int sig) {
printf("handler aaa\n");
exit(0);
}
int main() {
signal(SIGINT, my_handler);
for(;;) { }
return 0;
}
我们把编译后的a.out命令在脚本里以后台方式运行:
$ cat a.sh
#!/bin/sh
/tmp/a.out &
这次再尝试用kill -2
去杀a.out进程,是可以的。这说明shell对signal_handler
做手脚是在执行用户逻辑之前,也就是脚本在fork出子进程的时候就设置了。按照这个线索我们google后了解到: shell在非交互模式下对后台进程处理SIGINT
信号时设置的是IGNORE
。
交互模式与非交互模式对作业控制(job control)默认方式不同
为什么在交互模式下shell不会对后台进程处理SIGINT
信号设置为忽略,而非交互模式下会设置为忽略呢?还是比较好理解的,举例来说,我们先某个前台进程运行时间太长,可以ctrl-z
中止一下,然后通过bg %n
把这个进程放入后台,同样也可以把一个cmd &
方式启动的后台进程,通过fg %n
放回前台,然后在ctrl-c
停止它,当然不能忽略SIGINT
。
为何交互模式下的后台进程会设置一个自己的进程组ID呢?因为默认如果采用父进程的进程组ID,父进程会把收到的键盘事件比如ctrl-c
之类的SIGINT
传播给进程组中的每个成员,假设后台进程也是父进程组的成员,因为作业控制的需要不能忽略SIGINT
,你在终端随意ctrl-c
就可能导致所有的后台进程退出,显然这样是不合理的;所以为了避免这种干扰后台进程设置为自己的pgid。
而非交互模式下,通常是不需要作业控制的,所以作业控制在非交互模式下默认也是关闭的(当然也可以在脚本里通过选项set -m
打开作业控制选项)。不开启作业控制的话,脚本里的后台进程可以通过设置忽略SIGINT
信号来避免父进程对组中成员的传播,因为对它来说这个信号已经没有意义。
回到tomcat的例子,catalina.sh脚本通过start参数启动的时候,就是以非交互方式后台启动,java进程也被shell设置了忽略SIGINT
信号,因此在ctrl-c
结束test.sh进程时,系统发送的SIGINT
对java没有影响。
SIGHUP
(kill -1) 让tomcat进程退出的原因
在非交互模式下,shell对java进程设置了SIGINT
,SIGQUIT
信号设置了忽略,但并没有对SIGHUP
信号设为忽略。再看一下当时的进程层级:
|-sshd(1622)-+-sshd(11681)---sshd(11699)---bash(11700)---test.sh(13285)---tail(13299)
sshd把SIGHUP
传递给bash进程后,bash会把SIGHUP
传递给它的子进程,并且对于其子进程test.sh,bash还会对test.sh的进程组里的成员都传播一遍SIGHUP
。因为java后台进程从父进程catalina.sh(又是从其父进程test.sh)继承的pgid,所以java进程仍属于test.sh进程组里的成员,收到SIGHUP
后退出。
如果我们在test.sh里设置开启作业控制的话,就不会让java进程退出了
#!/bin/bash
set -m
cd /home/admin/tt/tomcat/bin/
./catalina.sh start
tail -f /home/admin/tt/tomcat/logs/catalina.out
此时java后台进程继承父进程catalina.sh的pgid,而catalina.sh不再使用test.sh的进程组,而是自己的pid作 为pgid,catalina.sh进程在执行完退出后,java进程挂到了init下,java与test.sh进程就完全脱离关系了,bash也不会 再向它发送信号。
(全文完)如果您喜欢此文请点赞,分享,评论。
- 原创文章转载请注明出处:Tomcat进程意外退出的问题分析
相关推荐
7. **避免进程退出的策略**: 为了避免因SSH终端关闭而意外终止Tomcat,可以考虑以下方法: - 使用nohup或screen命令来运行`catalina.sh start`,使进程不受SSH会话结束的影响。 - 修改启动脚本,使其在启动...
本文将详细介绍如何将Tomcat添加到Linux的守护进程,并处理"Invalid user name 'tomcat' specified"的异常问题。 首先,我们需要设置环境变量。打开 `/etc/profile` 文件,并添加以下两行来指定Tomcat和Java的安装...
### Windows 下 Tomcat 的守护进程与心跳检测程序详解 在 IT 领域,特别是 Java Web 开发中,Apache Tomcat 是一个非常重要的轻量级应用服务器,它主要用于部署 Java Web 应用程序。在实际生产环境中,为了保证服务...
### Linux下Tomcat的启动、关闭、杀死进程 在Linux环境下管理Apache Tomcat服务器是非常常见的运维操作之一。本文将详细介绍如何在Linux系统中启动、关闭以及强制终止(杀死)Tomcat进程。 #### 一、启动Tomcat ...
### 如何启动、重启及杀死Tomcat进程 在IT运维工作中,经常需要对服务器上的应用进行启动、重启或停止操作,以确保应用的稳定运行。本文档将详细介绍如何通过命令行来启动、重启以及杀死Tomcat进程的方法。这对于...
此小程序专门用来守护Tomcat进程 【运行方法】 直接双击TomcatWatcher.jar 程序通过访问http://localhost和输入的Tomcat端口来访问Tomcat主页,如果获取到返回串证明Tomcat运行中,否则检测JAVA.EXE进程是否存在。...
### Window与Tomcat部署程序后的进程管理 #### 一、部署环境配置 部署的位置为IP地址10.172.29.39,端口号8086,具体的目录为`D:\vas\BSIFMS\tomcat6`。在这里部署的应用程序的进程名称为`ifms.exe`。 #### 二、...
tomcat shutdown后,进程还存在linux系统中的解决办法
标题中的“tomcat服务进程守护”指的是在服务器环境中,对Tomcat应用服务器进行自动化管理,确保即使服务意外停止,也能自动重启,以维持系统的稳定运行。这种守护过程通常由一个额外的程序或脚本实现,它监控Tomcat...
标题中的“tomcat守护进程.rar”指的是一个关于如何在Windows操作系统下配置Tomcat服务器作为守护进程的教程或代码集合。守护进程(Daemon)通常是指在后台运行而不与用户交互的进程,这种设置允许Tomcat在没有图形...
因此,更改Tomcat进程名称可以有效解决这一问题,使运维人员能够快速定位和管理各个服务器实例。 ### 二、修改步骤详解 #### 步骤1:编辑`setclasspath.bat`文件 首先,需要定位到`tomcat_home\bin`目录下的`set...
本案例中,用户在Windows环境下安装了多个Tomcat服务,遇到CPU使用率异常升高的情况,但由于多个Java进程同时运行,无法直观地识别出问题所在。为了解决这个问题,我们可以通过为Tomcat进程设置别名来区分各个实例,...
此小程序专门用来守护Tomcat进程 【运行方法】 直接双击TomcatWatcher.jar 程序通过访问http://localhost和输入的Tomcat端口来访问Tomcat主页,如果获取到返回串证明Tomcat运行中,否则检测JAVA.EXE进程是否存在。...
本文将深入探讨如何将Tomcat设置为守护程序,以便在系统启动时自动运行,并且在意外关闭后能自动重启,确保服务的连续性。 首先,我们需要理解"守护进程"的概念。在操作系统中,守护进程(Daemon)是一种在后台运行...
tomcat启动|退出执行事件类: import java.io.File; import java.io.FileWriter; import java.io.IOException; import javax.servlet.ServletContextEvent; import javax.servlet.ServletContextListener; import ...
在分析Tomcat常见问题时,我们经常会遇到各种各样的错误,这些错误可能涉及到服务器配置、依赖库、系统环境以及应用程序本身。以下是一些常见的问题及其解决方案: 首先,Jdk版本不匹配是导致Tomcat无法正常运行的...
通过阅读和分析源码,可以加深对Tomcat运行原理的理解,这对于解决实际问题和进行性能调优非常有帮助。 总之,《Tomcat深入剖析》结合源码分析,是一本全面且深入的Tomcat学习资源,无论是初学者还是经验丰富的...
Linux下 tomcat的守护进程、心跳程序 自行重启TOmcat服务
shell监控tomcat进程,宕机重启,其他服务也是类似。