记录一次生产环境下的jvm内存泄露问题和分析解决过程

未完成交响曲-KyleWang

4974人浏览 · 2018-11-27 15:50:34

未完成交响曲-KyleWang · 2018-11-27 15:50:34 发布

发现异常

首先通过我们内部搭建的日志平台发现我们线上环境一个java应用有大量的http接口请求超时，登录linux服务器查看网络环境没有问题，判断是应用自身运行异常，重启应用后发现异常还在，开始查找问题。

初步查找问题

通过指令： jstat -gcutil 查看jvm内存占用和gc情况：
发现老年代内存占用比例过高，并且每次fullGC后并没有有效回收。老年代内存占用百分比变化趋势大致如下：
初步判断大量请求超时和服务瘫痪的直接原因：
- 每次fullGC后的内存占用越来越高
- 内存占用增长速度越来越快
- fullGC的频率越来越高
- 最终占用达到100%，服务完全瘫痪

分析处理

使用指令：jmap -histo:live *** | more 查看堆内存中的对象数量和大小
- 发现Log4jLogEvent这个对象实例很多，占用内存也异常的大，初步分析是异步日志传输速度跟不上，导致日志对象堆积在内存中。
尝试使用调整Flume传输日志参数：提高flume单次传输量，减少最大延迟时间
重启应用并监控接口调用情况发现应用暂时恢复正常了。

后续分析

在前一步分析内存的同时，使用指令：jmap -dump:format=b,file=heapDump.hprof将实时内存信息导出（dump过程比较慢，所以在问题暂时处理完后进行后续分析），使用mat分析内存结构：
- 可以看到主要占据堆内存的对象信息，果然是Flume异步传输日志堵塞的问题。

总结

对jvm内存泄露这类问题的解决，主要是要善于利用jvm提供的类似jstat、jmap等工具来分析查找问题。这次问题虽然解决，但是后续还是存在出现此类问题的风险。所以除了加强jvm问题排查能力的同时，我们也将建立应用监控平台的计划提上日程，希望能对jvm内存、线程等应用实时运行指标进行监控，便于尽早发现问题。

GitCode 开源社区

旨在为数千万中国开发者提供一个无缝且高效的云端环境，以支持学习、使用和贡献开源项目。

更多推荐

2025科研新风向！Top5文献阅读管理工具全测评

GitCode 开源社区

文献管理神器大盘点：5款主流软件助你科研提效！

文献管理是科研的基础环节，选择一款合适的科研提效软件能让你的研究事半功倍。无论是EndNote的专业格式化、Zotero的免费灵活、Mendeley的云端协作、的中文支持，还是沁言学术的全流程AI辅助，每款工具都有独特优势，满足不同需求。尤其是沁言学术，凭借强大的文献管理功能、智能分类和写作支持，成为近年来新兴的科研效率利器，值得一试。科研之路漫漫，效率先行！建议每位大学生、研究生和科研人员根据自