Druid连接池耗尽问题排查总结

druid

阿里云计算平台DataWorks(https://help.aliyun.com/document_detail/137663.html) 团队出品，为监控而生的数据库连接池

项目地址：https://gitcode.com/gh_mirrors/druid/druid

免费下载资源

hunger_wang

11387人浏览 · 2021-06-11 20:12:22

hunger_wang · 2021-06-11 20:12:22 发布

背景

生产环境有个关键应用所有节点，每隔几个月就会发生一次Druid连接池耗尽问题，重启后恢复正常。

目前我们还没有定位到问题原因，这边文章主要记录定位过程的一些思路和方法，后续如果找到根本原因，再做更新。

思路

数据库方向

应用连接池耗尽

1、会不会是应用与数据库的连接没有正常断开？

查看故障时数据库socket连接情况，没有发现。

2、会不会是应用执行了很多慢sql？

查看故障时数据库慢sql日志，没有发现。

3、会不会是应用执行了长事务？

查看故障时数据库事务情况，没有发现。

应用方向

应用连接池耗尽

1、会不会是应用受到攻击，突然收到大量请求？

通过对比故障时段和正常时段应用日志量级，没有发现。

2、应用的线程堆栈信息能不能看到什么操作占用大量数据库连接？

应用故障时通过jstack输出堆栈信息，所有线程阻塞在com.alibaba.druid.pool.DruidDataSource.pollLast(DruidDataSource.java:1944)，也只有现象没有原因。

Druid方向

思考：能不能在应用故障时，输出Druid连接池活跃连接线程堆栈信息，辅助排查问题？

Druid有提供Web站点查看内部运行信息，地址：应用ip:port/druid/login.html

它有activeConnectionStackTrace-{datasourceId}.json端点可以获取活跃连接线程堆栈信息，datasourceId需要通过datasource.json端点获取输出中Identity的值。让人困惑的是，activeConnectionStackTrace-{datasourceId}.json端点要有输出，需要设置Druid的参数removeAbandoned=true

通过查看源码，我们发现DruidDataSource有getActiveConnectionStackTrace方法，可以获取活跃连接线程堆栈信息。这样我们可以自己在应用中定时检测DruidDataSource活跃连接数量，一旦超过某个阈值，就输出活跃连接线程堆栈信息到日志，辅助排查问题。

总结

这个关键应用连接池耗尽问题存在已有半年之有，一直没能找到根本原因，希望这次借助DruidDataSource输出连接线程堆栈信息能找到问题原因。

如果大家知道原因或有更好的定位方法，请不吝赐教。

GitHub 加速计划 / druid / druid

下载

阿里云计算平台DataWorks(https://help.aliyun.com/document_detail/137663.html) 团队出品，为监控而生的数据库连接池

最近提交(Master分支：18 天前 )

a71fa6ad - 4 天前

0b375e47 - 11 天前

GitCode 开源社区

旨在为数千万中国开发者提供一个无缝且高效的云端环境，以支持学习、使用和贡献开源项目。

更多推荐

沁言学术 vs Grammarly：中文学术写作与语料库本地化支持的表现剖析

Grammarly是全球写作工具，语料库以英文为主，支持基本中文检查；沁言学术是本土AI平台，语料库深度本地化，针对中文学术设计。中文学术写作：Grammarly基础语法/拼写（本地化弱），沁言学术AI生成/优化（深度支持）。语料库本地化：Grammarly通用库（英文主导），沁言学术本土库（CNKI等集成）。整体：Grammarly免费版通用，付费版高级；沁言学术免费版入门，AI付费优化。表现亮