使用Supervisor进行监控进程并实现自动重启
1.什么是进程守护系统?
进程守护系统,用于监控指定的进程,当发现目标进程不再正常工作时,就关闭该进程,并重启它。
在什么情况下使用进程守护系统了?比如说,我们的某个服务器软件,在上线后出现一个严重的bug,该bug虽然很难出现,但是只要一出现,整个服务都会停掉(进程没有崩溃,只是不再提供服务)。此时,重启服务软件,又会开始正常工作。
对于这样严重的bug,必须要查清楚并解决掉的。但是,基于以下两个原因:
- 系统已经对用户开放,服务不能停。不可能说系统先下线,直到bug被解决掉后再重新上线。
- bug很难重现,可能需要加日志,不断地跟踪排查,这很可能是一场持久战。
为了让系统继续线上运行,在bug解决之前,必须要保证系统停止服务之后,能迅速重新启动恢复服务。此时,使用进程守护系统是最恰当不过的了。
Supervisor就是为达到这一目的,实现了一个进程守护系统。一个守护者程序,可以守护同一台机器上的多个进程。Supervisor是一个基于Python开发的Linux系统上的进程监控工具。可以很方便的监听、启动、停止和重启一个或多个进程。通过 Supervisor 管理的进程,当进程意外被 Kill 时,Supervisor 会自动将它重启,可以很方便地做到进程自动恢复的目的,而无需自己编写 shell 脚本来管理进程。
2.进程守护系统的实现及使用
Supervisor守护者对被守护进程的管理使用的是心跳机制,其原理描述如下:
- 被守护进程定时向守护者报告(发送心跳),以表明自己是在正常提供服务。
- 如果守护者发现某个被守护进程连续一段时间都没有心跳过来,就关闭对应的进程,然后再启动对应的程序。
在supervisor的配置⽂件中,把要管理的进程的可执行文件的路径写进去,通过配置command这个参数,把这些被管理的进程当作supervisor的子进程来启动,获取到该进程的pid,然后再对该pid进行监控,当子进程挂掉的时候,父进程可以准确获取子进程挂掉的信息,可以选择是否⾃⼰启动和报警。
3. 安装配置Supervisor
#Ubuntu安装Supervisor
apt install -y supervisor
#supervisor开机自启:
systemctl enable supervisor
# 开始运行
systemctl start supervisor
# 查看supervisord服务状态
systemctl status supervisord
# 查看是否存在supervisord进程
ps -aux|grep supervisord
编辑配置文件
vim /etc/supervisord.conf,增加如下内容,以方便使用web页面查看被守护进程的信息及操作。
[inet_http_server] #HTTP服务器,提供web管理界面
port=0.0.0.0:9001 #Web管理后台运行的IP和端口,云服务器注意开放该端口
username=admin #登录管理后台的用户名
password=admin #登录管理后台的密码
添加一个被守护进程的配置文件
#以test为例
cd /etc/supervisor/conf.d/
#创建开机启动脚本配置文件
touch test.conf
#编辑/etc/supervisor/conf.d/test.conf
vim /etc/supervisor/conf.d/test.conf
内如如下:
[program:api]
#执行文件的路径
directory=/home/ok/test/
#执行的命令
command=bash test.sh
#随supervisor启动
autostart = true
#启动10秒后没有异常退出,就表示进程正常启动
startsecs = 10
#程序退出后自动重启
autorestart = true
#启动失败自动重试次数
startretries = 2
#执行命令的用户
user = ok
#用来杀死进程的信号
stopsignal=KILL
#日志路径
stdout_logfile=/home/ok/test/tornado_16018.log
因为supervisor已经被设置成了开机自启动,而这里,我们又设置了test.sh随着supervisor而自启动。test.sh的内容如下:
#!/bin/bash
#echo "hello world"
sleep 10
cd /home/ok/test/
./a.out
#也可以是./a.out &
其中a.out是我们写的测试程序,主要是测试stl的map的插入与查询功能;
验证
重启电脑后,使用web页面查看守护进程工作情况。浏览器访问IP地址端口
http://0.0.0.0:9001
已经开始运行并监控,如果进程挂掉将重启,但是supervisor不支持跨机器的进程监控,一个supervisord只能监控本机上的程序,大大限制了supervisor的使用。
查看pstree,supvervisor确实是1号进程的子进程。
我们使用kill -9 pid的方式杀掉a.out后,supervisor确实会再启动一个a.out,这可以可以通过日志查看。
这里面,supervisor首页显示的pid实际是test.sh对应的进程id,而日志里面的是a.out对应的进程id。
通过上述测试过程,我们发现,supervisor除了可以监控进程外,其实还可以把某个程序设置为开机启动。
注意,这里面如果要求用户的程序在全局只能有1份同时在运行,那么脚本里面还需要增加其他的内容,例如判断当前进程列表里面是否已经存在该进程,如果存在,则不再启动,否则则启动。相关内容可以参考:linux 进程(关于守护进程、检查一个进程是否活着、如何写一个进程号文件)_andylauren的博客-CSDN博客
有了supervisor之后我们可以直接借助它来实现我们的守护进程,而不用再像创建守护进程为什么要fork两次_TerryZjl的博客-CSDN博客_守护进程fork两次介绍的那样来回折腾。
参考链接:https://blog.csdn.net/weixin_46415378/article/details/124229507
更多推荐
所有评论(0)