问题背景:

        线上的服务突然内存爆满,查服务器突然发现,日志全部打印到了/tmp/tomcat.xxx.port目录下,后来对应操作时间,和nacos修改配置是同一时间发生的,但是疑惑的点是,nacos配置变更为什么会引起logback的日志打印目录突然切换,以下是分析结论和原理。

排查过程:

之后发现是tmp临时目录磁盘堆满导致,日志文件全部输出到/tmp,排查tmp磁盘堆满的原因。

结合相同时间点操作发现,nacos变更配置的时间和写入文件时间对得上。开始分析nacos变更配置为何会导致日志目录变更。

原理分析:

总结简述:

初始化logsystem的配置会发生在两个阶段或者说两次,按照启动顺序依次讲述:

        1.第一次是在服务启动的时候,初始化配置时对logback的xml配置进行流读取后saxParser解析,此时因为服务还处于未完全启动的阶段,读取变量catalina.home时候,不管是当前上下文还是系统变量中都是null,所以NodeToStringTransformer类在handleVariable方法中赋值了默认值(下面有具体表示)UNDEFINED_PROPERTY_SUFFIX = "_IS_UNDEFINED";也就造成了日志系统根目录都在这个目录下,即catalina.home_IS_UNDIFINED。

        2.而完全启动服务后,tomcat会默认在临时路径下(linux 是/tmp。windows是C:\Users\Administrator\AppData\Local\Temp)创建tomcat.随机数字.port的文件夹,目的是为了存储临时缓存和一些文件上传(multipartFile)时候使用。也会随之将catalina.home变量赋值为新建的这个临时目录。

        3.在后续nacos配置变更时,触发日志系统配置重置后,再次读取logback.xml并解析变量时,变量的值和刚启动时已经不同,也就导致之后的日志全部输出到变量赋值后的临时目录下,随后临时目录磁盘较小(3G),在写满之后,日志在缓存中,导致后续内存飙升。

源码分析:

1.服务启动过程中,LoggingApplicationListener监听器监听事件进行环境参数初始化配置:

图片.png

图片.png

准备读取logginSystemProperties配置

图片.png

初始化配置

图片.png

加载配置文件,读取到配置文件logback.xml的全路径

图片.png

图片.png

根据文件全路径进行IO流读取文件内容:

图片.png

图片.png

接下来处理xml文件中的每个节点,进入到了NodeToStringTransformer类(这个类是具体针对节点变量进行读取操作)

图片.png

读取到catalina.home打断点查看,可以看到不管是从系统变量还是上下文中获取都是null,随后赋予了默认值 UNDEFINED_PROPERTY_SUFFIX = "_IS_UNDEFINED";所以日志文件会写在catalina.home_IS_UNDIFINED下。

2b9c27fcbb0f5230f73768b488166a77.png

eb24c6f6edfccf2ddb62236ceac8f3c5.png

=================================================================== 服务启动后修改nacos配置,通过spi插件机制触发springcloud的配置类初始化:

图片.png

和服务启动时一样,进入LogbackLoggingSystem这个类的初始化配置值方法。

图片.png

同样在catalina.home变量处打断点:

5cf5c4ae173ed573c3d11276330e6fd8.png

从lookupKey方法调用获取系统变量方法中已经能获取到服务启动后创建的tomcat临时目录。

图片.png

2e7197713e8ebbeecc07f8e66ea28d12.png

也就直接返回,不在走下一步逻辑中的赋默认值操作。

a8fb2f0492122dc6c00f8536fee9603a.png

到这里之后,catalina.home变量赋值已经改变,后续的日志也会往新的路径打印。

处理方法:

将${catalina.home}变量赋值,或者去掉,总之变为固定路径。避免在服务启动过程中日志路径的变化。

GitHub 加速计划 / na / nacos
29.83 K
12.75 K
下载
Nacos是由阿里巴巴开源的服务治理中间件,集成了动态服务发现、配置管理和服务元数据管理功能,广泛应用于微服务架构中,简化服务治理过程。
最近提交(Master分支:2 个月前 )
4334cd16 * Support custom client configuration timeout.(#12748) * Add UT.(#12748) 4 天前
b04d2266 8 天前
Logo

旨在为数千万中国开发者提供一个无缝且高效的云端环境,以支持学习、使用和贡献开源项目。

更多推荐