Java高频面试考点：JVM调优与故障排查实战指南

逻辑驱动的ken

530人浏览 · 2026-03-22 20:04:47

逻辑驱动的ken · 2026-03-22 20:04:47 发布

一问一答：对象分配与逃逸分析技术

问：Java 里 new 出来的对象，一定是分配在堆内存中吗？答：不一定。随着 JIT 编译期的发展，以及逃逸分析技术的成熟，对象分配在堆里已经不是绝对的了。JVM 会通过编译优化，让部分不会被外部引用的对象，直接分配在虚拟机栈上，方法执行完栈帧出栈就自动销毁，不用经过垃圾回收，大大降低堆内存的压力。

问：那什么是逃逸分析技术？答：逃逸分析是 JIT 编译器的一项核心优化技术，本质是分析对象的动态作用范围，判断一个对象会不会 “逃出” 当前方法、甚至当前线程。通俗来说，一个在方法里 new 出来的对象，逃逸程度分为三个等级：

未逃逸：对象只在当前方法内部使用，不会被外部方法调用、也不会被其他线程访问；
方法逃逸：对象被作为方法返回值返回，或者作为参数传递给了其他方法，被外部调用；
线程逃逸：对象被赋值给了其他线程能访问到的实例变量，会被多个线程访问，这是逃逸程度最高的情况。

问：开启逃逸分析后，JVM 会做哪些优化？答：基于逃逸分析的结果，JVM 会对未逃逸的对象做三大核心优化，也是面试的核心得分点：

栈上分配如果确定对象不会逃逸到方法之外，JVM 会直接把这个对象分配在虚拟机栈上，而不是堆里。方法执行结束，栈帧出栈时，对象占用的内存会跟着一起销毁，完全不用经过垃圾回收，极大降低了 GC 的压力。
同步消除（锁消除）线程同步是非常耗时的操作，如果逃逸分析判断一个对象不会逃逸出当前线程，也就是不可能被其他线程访问，那这个对象的读写就完全不会有线程安全问题。此时 JVM 会直接消除掉这个对象上的同步锁（比如synchronized），不用加锁解锁，大幅提升代码执行效率。
标量替换标量就是不可拆分的基本数据类型（比如 int、long、boolean 这些）。如果逃逸分析证明一个对象不会被方法外部访问，而且这个对象可以被拆分成多个标量，那 JVM 就不会创建这个完整的对象了，直接把它的成员变量拆成一个个基本类型，在栈上分配和读写。相当于把对象拆解了，连对象头的内存开销都省了，执行效率更高。

问：怎么开启或关闭逃逸分析？有什么注意事项？答：JDK 6 及以上的 HotSpot 虚拟机，默认是开启逃逸分析的，对应的 JVM 参数：

开启逃逸分析：-XX:+DoEscapeAnalysis
关闭逃逸分析：-XX:-DoEscapeAnalysis

需要注意：只有服务端模式的 JVM（Server 模式）才会开启逃逸分析，而且所有优化都是 JIT 编译期的优化，解释执行的代码不会生效；如果关闭了逃逸分析，所有对象都会分配在堆内存中，上面的三项优化也都会失效。

一问一答：JVM 监控与故障处理工具

问：你了解哪些 JVM 监控和故障处理工具？答：我把常用的 JVM 故障排查工具分成三大类，都是线上实际排查问题会高频用到的：第一类是JDK 自带的命令行工具，这是线上无 GUI 服务器环境的核心排查工具，比如 jps、jstat、jmap、jstack 这些；第二类是JDK 自带的可视化工具，比如 JConsole、VisualVM，适合本地开发、测试环境做实时性能分析；第三类是第三方专业分析工具，比如阿里开源的 Arthas、内存分析工具 MAT、GC 日志分析工具 GCViewer，适合复杂线上故障的深度定位。

一、JDK 自带命令行工具（线上核心）

问：线上排查问题，第一步一般用什么工具？怎么找到 Java 进程的 PID？答：第一步肯定用jps，它是专门用来查看当前系统所有 Java 进程的工具，直接执行jps -l，就能输出所有 Java 进程的 PID 和对应的全限定类名，是所有排查操作的前提。

问：线上服务频繁 GC、接口响应变慢，你会用什么工具排查？答：我会用jstat，它是 JVM 运行状态监控的核心工具，能实时查看类加载、内存、GC、JIT 编译等所有运行数据，是无 GUI 环境下定位 GC 问题的首选。最常用的命令是：jstat -gc <pid> 1000 8，意思是每隔 1000 毫秒输出一次 GC 堆状态，一共输出 8 次。通过这个命令能看到新生代、老年代的内存占用，Young GC、Full GC 的次数和耗时，快速定位是不是 GC 频繁导致的服务卡顿。

问：线上服务发生 OOM 了，你会怎么处理和分析？答：首先会用jmap工具生成堆转储快照（dump 文件），命令是jmap -dump:file=heap.hprof <pid>，把当前堆内存的完整快照保存下来。同时jmap也能做初步排查：

jmap -heap <pid>：查看 Java 堆的详细信息，比如各代内存大小、使用情况、当前用的垃圾收集器；
jmap -histo <pid>：查看堆里所有对象的统计信息，比如哪个类的对象数量最多、占内存最大，快速定位大对象问题。拿到 dump 文件后，再用 MAT 工具做深度分析，找到内存泄漏的根源。

问：线上服务突然卡死，接口完全不响应，怀疑是死锁或者线程阻塞，你会怎么排查？答：我会用jstack工具，它是专门生成线程快照的工具，能输出当前 JVM 里每一条线程正在执行的方法堆栈，是定位线程问题的神器。直接执行jstack <pid>，就能拿到完整的线程堆栈信息：

它能直接检测出 Java 级别的死锁，输出哪个线程持有了哪把锁、又在等待哪把锁，直接定位死锁位置；
也能定位线程长时间等待的问题，比如死循环、请求外部资源阻塞、锁竞争等导致的线程卡顿。

问：jhat 工具是做什么的？平时会用吗？答：jhat 是用来分析 jmap 生成的堆 dump 文件的工具，执行jhat heap.hprof后，它会启动一个 HTTP 服务，我们可以在浏览器里查看堆里的对象信息。但平时基本不用它，因为它的分析能力太弱了，而且分析大堆文件非常耗资源，现在都用 MAT、JProfiler 这些更专业的工具替代了。

二、JDK 自带可视化工具

问：JConsole 工具是做什么的？有什么用？答：JConsole 是 JDK 内置的可视化性能监控工具，基于 JMX 实现，能实时监控 Java 进程的内存、线程、类加载、CPU 使用情况，还有 MBean 的信息。它相当于可视化的 jstat+jstack，能直观看到内存变化曲线、线程状态，适合本地开发、测试环境，快速定位内存泄漏、死锁、类加载异常这些基础问题，也支持远程连接线上服务做监控。

问：VisualVM 比 JConsole 强在哪里？答：VisualVM 是 JDK 自带的全能型可视化分析工具，集成了 JDK 所有命令行工具的功能，比 JConsole 强大很多：

它能实时监控内存、CPU、线程、类加载状态；
支持生成和分析堆 dump 文件、线程快照；
能跟踪内存泄漏、监控垃圾回收、执行 CPU 性能分析；
还支持安装各种插件，扩展更多功能，比如 BTrace 动态追踪、GC 日志分析等，是本地开发阶段做性能调优的首选工具。

三、第三方专业分析工具

问：分析 OOM 的堆 dump 文件，你会用什么工具？答：我会用MAT（Eclipse Memory Analyzer），它是专业的 Java 堆内存分析工具，比 jhat 强太多了。它能快速解析超大的堆 dump 文件，自动分析内存泄漏的可疑点，展示对象的占用占比、引用关系、支配树，能精准定位到哪个对象、哪行代码导致的内存泄漏，是处理 OOM 问题的核心工具。

问：分析 GC 日志，你会用什么工具？答：常用的有两个：

GChisto：能统计 GC 的次数、耗时、吞吐量，生成各个阶段的统计报表，适合看 GC 的整体表现；
GCViewer：能把 GC 日志可视化成曲线图，直观看到堆内存的变化、GC 停顿的时间点和时长，精准定位 Full GC 的触发原因。

问：线上服务不能停，又要实时排查方法执行耗时、参数出入，你会用什么工具？答：我会用阿里开源的Arthas，它是线上问题排查的神器，不用重启服务、不用修改代码，就能实时监控 JVM 的状态。它能做的事情非常多：查看 JVM 的实时运行数据、监控方法的执行耗时和出入参、反编译线上的 class 文件、定位类加载冲突、跟踪热点方法、甚至修改方法的入参返回值，是线上复杂问题排查的首选工具，不用再反复改代码、重启服务验证。

问：还有哪些进阶的性能分析工具？答：还有两个高频使用的进阶工具：

JProfiler：商用的全能型性能分析工具，功能比 VisualVM 更强大，支持内存分析、CPU 热点分析、线程分析、数据库访问分析，能精准定位到性能瓶颈的代码行，适合做深度的性能调优；
async-profiler：开源的 Java 性能分析工具，能生成火焰图，精准定位 CPU 占用高的热点方法，开销极低，不会影响线上服务，是线上性能瓶颈分析的利器。

一问一答：JVM 常见参数配置

问：JVM 的常见参数配置你知道哪些？答：我把线上高频使用的 JVM 参数分成了四大类，分别是堆内存配置、GC 收集器选择、GC 调优参数、GC 日志打印，都是服务调优、故障排查的核心参数，我分别给你说清楚每个参数的作用和实际用法。

一、堆内存核心配置参数

问：堆内存相关的核心配置参数有哪些？分别是做什么的？答：堆内存是 JVM 调优最基础也最核心的部分，高频参数有这几个：

-Xms：设置 JVM 的初始堆大小，也就是堆内存的最小值。线上最佳实践是把-Xms和-Xmx设置成相同的值，避免堆内存动态扩容、缩容带来的性能开销，减少 GC 的额外压力。
-Xmx：设置 JVM 的最大堆大小，是最核心的参数。一般根据服务器总内存和服务类型调整，比如 8G 内存的服务器，Web 服务通常给堆设置 4G 左右，预留足够内存给系统、元空间和堆外内存。
-Xmn / -XX:NewSize / -XX:MaxNewSize：设置新生代的内存大小。-Xmn是简写，直接固定新生代的初始值和最大值，线上更常用；新生代一般设置为整个堆的 1/3~1/2。
-XX:NewRatio：设置新生代和老年代的内存比例。比如设置为 3，代表新生代：老年代 = 1:3，新生代占整个堆的 1/4，适合老年代对象占比高的服务。
-XX:SurvivorRatio：设置新生代里 Eden 区和两个 Survivor 区的比例。比如设置为 8，代表 Eden:Survivor0:Survivor1=8:1:1，单个 Survivor 区占新生代的 1/10，这也是 JDK 的默认值。
-XX:MaxPermSize / -XX:MaxMetaspaceSize：设置非堆内存的最大值。前者是 JDK8 之前永久代的参数，JDK8 用元空间替代了永久代，对应的参数变成了-XX:MaxMetaspaceSize，用来限制元空间的最大内存，避免元空间无限占用系统内存。

二、垃圾收集器选择参数

问：怎么通过 JVM 参数，指定服务使用的垃圾收集器？答：不同的收集器有对应的开启参数，常用的有这几个，都是根据业务场景选择的：

-XX:+UseSerialGC：开启串行收集器。新生代用 Serial，老年代用 Serial Old，单线程执行 GC，只会用在单核、小内存的嵌入式设备上，线上服务基本不用。
-XX:+UseParallelGC：开启并行吞吐量优先收集器。新生代用 Parallel Scavenge，老年代用 Parallel Old，是 JDK8 的默认收集器，适合离线计算、大数据批量处理这种优先追求高吞吐量、对单次停顿不敏感的场景。
-XX:+UseConcMarkSweepGC：开启 CMS 并发低延迟收集器。新生代用 ParNew，老年代用 CMS，主打低停顿，适合对响应时间有要求的 Web 服务，JDK9 之后被标记为废弃，JDK14 彻底移除。
-XX:+UseG1GC：开启 G1 收集器。是 JDK9 及以上版本的默认收集器，兼顾低延迟和可预测的停顿时间，适合 8G 以上的大堆场景，是线上中大型 Web 服务的首选。
-XX:+UseZGC：开启 ZGC 收集器。JDK11 + 支持的超低延迟收集器，停顿时间能控制在毫秒级，适合百 G 以上的大内存、对延迟要求极高的金融、数据库类服务。

三、GC 调优核心参数

问：并行收集器、G1 这类收集器，有哪些常用的调优参数？答：线上调优高频使用的有这几个，都是直接影响 GC 表现的核心参数：

-XX:ParallelGCThreads：设置 GC 并行执行时使用的线程数。一般设置为和服务器 CPU 核心数一致，避免 GC 线程和业务线程抢占 CPU 资源，影响服务吞吐量。
-XX:MaxGCPauseMillis：设置 GC 最大的目标停顿时间。这是 G1 最核心的调优参数，默认值是 200 毫秒，JVM 会尽量保证每次 GC 的停顿不超过这个值，我们可以根据服务的响应时间 SLA 灵活调整。
-XX:GCTimeRatio：设置 GC 耗时和业务运行时间的占比。计算公式是1/(1+n)，比如设置为 99，代表 GC 耗时最多占总运行时间的 1%，适合优先追求高吞吐量的批量任务场景。

四、GC 日志打印参数（线上排查必用）

问：线上排查 GC 卡顿、OOM 问题，需要开启哪些 GC 日志打印参数？答：GC 日志是定位 GC 问题的核心依据，常用的打印参数有这几个：

-XX:+PrintGC：打印基础的 GC 信息，能看到每次 Young GC、Full GC 的发生时间和内存变化，适合快速查看 GC 频率。
-XX:+PrintGCDetails：打印详细的 GC 日志，包括每个内存代的前后变化、GC 耗时的细分阶段，是深度排查问题最常用的参数。
-XX:+PrintGCTimeStamps：打印 GC 发生的时间戳，能对应上服务接口卡顿的时间点，精准定位问题。
-Xloggc:gc.log：把 GC 日志输出到指定的文件里，方便后续用 GCViewer、GChisto 这些工具做可视化分析。补充：JDK9 之后日志参数做了统一升级，用-Xlog:gc*:file=gc.log来配置全量 GC 日志，功能更强大。

面试加分补充：线上服务我一般会用固定的参数模板，比如 JDK11+G1 的服务，我会这样配置：-Xms4g -Xmx4g -Xmn1g -XX:+UseG1GC -XX:MaxGCPauseMillis=200 -XX:+PrintGCDetails -XX:+PrintGCTimeStamps -Xloggc:logs/gc.log既固定了堆内存避免动态扩容，又设置了合理的停顿目标，同时开启了 GC 日志方便后续排查问题。

一问一答：JVM 调优经验

问：有做过 JVM 调优吗？答：做过，我处理过线上 JVM 相关的故障排查和性能调优。首先我有一个核心原则：JVM 调优是兜底的不得已手段，绝大多数时候，优化业务代码、系统架构带来的收益，远比盲目调整 JVM 参数要大得多。我有一套严谨的调优流程，也处理过真实的线上 OOM 故障，我分别给你讲清楚。

一、我遵循的标准 JVM 调优完整流程

调优绝对不是拍脑袋改参数，而是先定位问题、再量化目标、最后验证效果的闭环流程，我一般分为 5 步执行：

全面采集运行数据，定位问题根源调优的第一步是搞清楚 “问题到底出在哪”，我会从两个维度采集数据：

- 实时监控：用 Linux 的top/vmstat看系统 CPU、内存整体占用；用 JDK 自带的jps/jstat看 JVM 的 GC 频率、各代内存占用；通过监控平台看接口响应时间、吞吐量、错误率，先区分是 GC 问题、内存泄漏，还是代码本身的性能问题。
- 事后深度分析：针对偶发的 OOM、卡顿，我会先开启-XX:+HeapDumpOnOutOfMemoryError参数，拿到堆快照后用 MAT、JProfiler 做内存分析；用jstack拿线程快照定位死锁、线程阻塞；用 GCViewer 分析 GC 日志，定位 GC 停顿、频繁触发的根因。

确定量化的调优目标调优不能是模糊的 “让系统更快”，必须有可落地的量化指标，我一般从三个维度定目标：

- 内存维度：堆内存使用率稳定在 70% 以内，无内存泄漏迹象；
- GC 维度：Young GC 单次停顿低于 50ms，频率稳定；Full GC 频率低于 1 天 1 次，单次停顿低于 200ms；
- 业务维度：接口 99 分位响应时间达标，系统吞吐量能支撑线上峰值流量。

制定针对性的调优参数方案我会根据定位到的问题针对性调整，绝对不会直接抄网上的通用参数。比如：

- 频繁 Full GC：优先排查老年代内存设置是否合理、是否存在内存泄漏；
- Young GC 停顿过长：调整新生代大小、Survivor 区的比例；
- 低延迟要求的 Web 服务：选择 G1 收集器，设置合理的最大停顿时间目标；
- 离线批量任务：选择 Parallel 收集器，优先保证高吞吐量。

压测验证，对比调优前后的指标调整完参数不会直接上线，而是用压测工具模拟线上峰值流量，对比调优前后的内存、GC、响应时间、吞吐量，确认调优达到目标，同时没有引入 GC 频率变高、内存占用过大这类副作用。
线上灰度验证，持续监控调整压测通过后，先灰度发布到少量线上节点，持续监控运行情况，根据线上真实的流量特征微调参数，最终找到最适配当前业务的最优配置。

二、我处理过的线上 JVM 调优真实案例

我处理过一个电商运营后台的偶发 OOM 故障，是一个典型的「看似是 JVM 问题，实际根因在业务代码」的案例，完整处理过程如下：

问题现象：运营后台偶发堆内存溢出 OOM，服务直接宕机。一开始团队默认是堆内存不足，把堆内存从 4G 直接调到 8G，结果问题依然没有解决，还是会偶发 OOM。
定位过程：我先给服务加上了 OOM 自动 dump 堆快照的参数，等故障复现时拿到了 dump 文件。用 JProfiler 分析发现，堆里占用内存最大的是 String 对象和 Excel 相关对象，但 dump 文件太大没法直接跟踪引用链路。于是我转而分析线程快照，发现业务线程的核心耗时都集中在「订单信息导出」这个方法里。
根因分析：这个导出方法会查询几万条订单数据生成 Excel，本身就会产生大量临时对象。更严重的问题是：前端导出按钮没有做点击置灰的防重处理，后端也没有防重复提交逻辑。运营人员点击导出后发现页面没反应，就会反复点击，导致大量导出请求同时打到后端，瞬间在堆里生成大量订单对象、Excel 对象，而且方法执行时间很长，这些对象 GC 时无法被回收，最终把堆内存撑爆触发 OOM。
解决方案：我没有调整任何 JVM 参数，只做了两个改动：一是前端给导出按钮加上点击置灰，后端响应完成后才允许再次点击；二是后端给导出接口加上分布式锁，做防重复提交处理。
最终效果：改动上线后，服务再也没有出现过 OOM，运行完全稳定。

除此之外，我也做过常规的服务性能调优：一个核心交易服务用 JDK8+ParNew+CMS，高峰期 Young GC 10 秒触发一次，接口响应时间波动极大。我通过 GC 日志分析，发现是新生代设置过小（仅 1G）、Survivor 区比例不合理，导致对象频繁提前进入老年代触发 Full GC。我把新生代调整到 2G，设置SurvivorRatio=8，同时优化了代码里的大对象创建逻辑，最终 Young GC 频率降到 1 分钟 1 次，接口 99 分位响应时间从 300ms 降到 150ms 以内，性能提升非常明显。

调优总结

JVM 调优的核心是先定位问题，再针对性解决，绝对不能盲目改参数。而且绝大多数线上 JVM 问题，根源都在业务代码上，优先优化代码、架构，再考虑调优 JVM，才是最高效的方式。

一问一答：线上服务 CPU 占用过高排查方案

问：线上服务 CPU 占用过高，你会怎么排查？答：CPU 占用过高的核心本质，是某个 / 某些线程长期占用了 CPU 资源。我有一套线上屡试不爽的标准排查流程，核心逻辑是「从进程到线程、从系统到代码，逐层缩小范围，最终定位到具体的业务代码」，同时也会用进阶工具做快速定位，完整流程分为 4 步：

第一步：定位占用 CPU 最高的 Java 进程

首先用top命令，查看系统所有进程的资源占用情况，执行：

bash

运行

top

重点看两个信息：

%CPU列：找到占用 CPU 最高的 Java 进程，记录它的进程 ID（PID）；
区分 CPU 占用类型：如果是us（用户态 CPU）占比高，大概率是业务代码、GC 的问题；如果是sy（内核态 CPU）占比高，大概率是系统调用、IO、线程上下文切换频繁的问题。

第二步：定位进程里占用 CPU 最高的线程

拿到 Java 进程 PID 后，用top -Hp 进程ID命令，查看这个进程里所有线程的资源占用情况，执行：

bash

运行

top -Hp 12345 # 12345是第一步拿到的Java进程PID

这个命令会列出进程里的所有线程，找到%CPU列占比最高的线程，记录它的线程 ID（nid）。

第三步：把线程 ID 转换成 16 进制

因为 JVM 的jstack工具输出的线程快照里，线程 ID 是 16 进制格式的，所以需要把第二步拿到的十进制线程 ID 转换成 16 进制，执行：

bash

运行

printf "%x\n" 6789 # 6789是第二步拿到的高占用线程ID

比如线程 ID 是 6789，转换后会得到1a85，后续我们就用这个 16 进制 ID 去匹配线程堆栈。

第四步：通过线程快照定位到具体代码

用jstack命令生成 Java 进程的线程快照，输出到文件里方便查看，执行：

bash

运行

jstack 12345 > thread_dump.log # 12345是Java进程PID

然后在thread_dump.log里，搜索第三步得到的 16 进制线程 ID（比如1a85），就能找到这个高占用线程的完整堆栈信息，直接定位到这个线程正在执行的业务方法、代码行号，找到 CPU 占用过高的根因。

同时，我也会在这个步骤里，查看是否有大量线程处于waiting/blocked状态：如果线程长期waiting on xxx，说明线程在等待锁，需要顺着锁地址找到持有锁的线程，排查锁竞争、死锁的问题。

补充：线上 CPU 过高的常见根因 & 进阶排查

1. 最常见的 CPU 飙高根因

我在线上排查过的 CPU 过高问题，90% 都来自这几类场景：

业务代码问题：死循环、无限递归、循环里频繁创建对象、正则表达式贪婪匹配导致的回溯、大量的序列化 / 反序列化操作；
GC 问题：内存泄漏导致频繁 Full GC，GC 线程会占用大量 CPU，这种情况我会用jstat -gc 进程ID 1000实时查看 GC 频率，结合堆快照定位内存泄漏；
并发问题：高并发下的热点方法频繁执行、锁竞争激烈导致大量线程上下文切换、线程死锁；
第三方组件 bug：比如连接池、序列化框架、日志框架的性能问题。

2. 进阶快速排查工具

线上紧急排查时，我会用阿里开源的 Arthas 工具，不用一步步敲命令，直接执行thread -n 3，就能立刻看到占用 CPU 最高的 3 个线程的完整堆栈，一步定位到问题代码，效率极高；如果是长期的性能瓶颈，我会用async-profiler生成 CPU 火焰图，精准定位到全链路里的热点方法，做针对性的性能优化。

真实排查案例

我之前处理过一个电商订单服务 CPU 飙到 100% 的故障，用这套流程，最终定位到是订单导出功能里，循环里频繁拼接 String 字符串，同时有一个复杂的正则校验存在贪婪匹配回溯的问题，导致单线程占用了大量 CPU。优化成 StringBuilder、调整正则表达式后，服务 CPU 直接降到了 20% 以内，恢复正常。

一问一答：线上服务内存飙高排查方案

问：线上服务内存飙高问题怎么排查？答：Java 进程内存飙高，核心本质只有两种情况：一是业务创建对象的速度，远超 GC 的回收速度；二是发生了内存泄漏，对象被无效的强引用持有，GC 永远无法回收。我有一套标准的线上排查流程，从初步定位到深度根因分析，分为 3 个核心步骤，同时会覆盖堆外内存这类容易被忽略的场景，完整流程如下：

第一步：实时监控 GC 与内存分布，初步区分问题类型

这一步的核心是先搞清楚：内存飙高是「正常的业务对象创建过快」，还是「异常的内存泄漏」，我会用两个 JDK 自带命令完成初步定位：

用jstat实时监控 GC 状态执行命令：jstat -gc <Java进程PID> 1000，意思是每隔 1 秒输出一次 GC 堆状态，持续观察。重点看两个核心判断维度：

- 如果 Young GC/Full GC 非常频繁，但每次 GC 后，新生代、老年代的内存占用能正常下降，说明是业务高峰期对象创建速度太快，GC 跟不上；
- 如果 GC 频繁，但每次 GC 后老年代内存只下降一点点，老年代占用率持续上涨，甚至 Full GC 后也几乎不下降，几乎可以确定是发生了内存泄漏。

用jmap查看堆内对象分布，初步定位大对象执行命令：jmap -histo <Java进程PID> | head -20，直接输出堆里占用内存最大的前 20 个对象类型。这个命令能快速定位到是哪类对象在占用内存，比如是 String、Excel 对象、还是数据库连接对象，快速缩小排查范围，不用等完整的 dump 文件分析。

第二步：导出堆内存快照（dump 文件），为深度分析做准备

初步判断是内存泄漏，或者需要深度定位问题时，我会导出堆的完整快照，这里分两种场景处理：

服务还在运行时执行命令：jmap -dump:live,format=b,file=/home/heap.hprof <Java进程PID>这里的live参数是只 dump 当前存活的对象，能大幅减小 dump 文件的大小，提升后续分析效率。注意：dump 大堆内存时会触发 STW，线上必须在低峰期操作，或者先把节点从集群里摘下来，避免影响业务。
服务已经 OOM 宕机时我会提前给线上服务配置 JVM 参数，让服务 OOM 时自动 dump 堆快照，方便事后回溯：

plaintext

-XX:+HeapDumpOnOutOfMemoryError
-XX:HeapDumpPath=/opt/crashes/heap.hprof

这样服务一旦发生 OOM，就会自动把堆快照保存到指定路径，不会丢失现场。

第三步：离线深度分析 dump 文件，定位到具体业务代码

拿到 dump 文件后，我会用专业的内存分析工具做深度定位，找到内存飙高的根因：

常用分析工具首选MAT（Eclipse Memory Analyzer），它是专业的堆内存分析工具，能自动分析内存泄漏的可疑点，通过「支配树视图」查看对象的占用占比，通过「引用链视图」找到是谁在持有这个对象，直接定位到具体的业务代码行。本地简单分析也可以用 JDK 自带的VisualVM，或者商用的JProfiler，功能更强大。
核心分析逻辑先看占用内存最大的对象，顺着它的引用链往上找，找到最终持有这个对象的「根对象」，看是哪个类、哪个方法在持有它，比如：

- 是静态集合无限添加对象，没有清理机制；
- ThreadLocal 用完没调用remove()，导致线程池的常驻线程一直持有对象；
- 数据库连接、IO 流用完没关闭，导致对象无法回收；
- 本地缓存没有设置过期时间和最大容量，无限累积对象。

补充：容易被忽略的堆外内存飙高排查

很多时候内存飙高不是堆内的问题，而是堆外内存泄漏，我会用 JVM 的 NMT（Native Memory Tracking）来排查：

给服务加上 JVM 参数开启 NMT：-XX:NativeMemoryTracking=detail
执行命令查看堆外内存分布：jcmd <PID> VM.native_memory detail
重点看Internal（DirectBuffer 堆外内存）、Class（元空间）、Thread（线程栈）的占用，定位堆外内存泄漏的根因，比如 Netty 的 DirectBuffer 没释放、动态生成类太多导致元空间泄漏、线程创建过多导致栈内存占用过高等。

线上内存飙高的常见根因 & 真实案例

我在线上排查过的内存飙高问题，90% 都来自这几类场景：

内存泄漏：静态集合无限制添加对象、ThreadLocal 未手动 remove、连接 / 流未关闭、单例持有大对象、缓存无过期策略；
大对象 / 临时对象频繁创建：循环内大量创建对象、全量数据导出 Excel 一次性加载几万条数据、大文件读取未分片；
堆外内存泄漏：Netty 堆外内存未释放、JNI 调用的本地内存泄漏；
元空间泄漏：频繁反射、动态代理、热加载，导致大量动态生成的类无法被卸载。

我之前处理过一个运营后台内存持续飙高的故障：用jstat发现 Full GC 一天触发十几次，每次 GC 后老年代内存只下降不到 10%，jmap -histo看到 Excel 相关对象占了堆内存的 60%。导出 dump 文件用 MAT 分析后，发现是订单导出功能里，生成的 Excel 工作簿对象被一个静态的全局集合持有，用完没有移除，导致对象永远无法被回收。给集合加上用完移除的逻辑后，服务内存恢复正常，Full GC 降到一周 1 次以内。

一问一答：频繁 Minor GC 的排查与优化方案

问：线上服务频繁触发 Minor GC，该怎么处理？答：首先要明确，Minor GC 是 JVM 对新生代的垃圾回收，当 Eden 区被填满时就会触发。频繁 Minor GC 的核心本质，要么是新生代 Eden 区空间过小，被快速填满，要么是业务代码频繁创建大量短期对象，加速了 Eden 区的耗尽。我处理这类问题有一套标准的「先定位根因，再针对性优化」的流程，绝对不会盲目调整 JVM 参数，完整方案如下：

第一步：先通过监控定位问题根因，区分场景

优化的前提是搞清楚「为什么频繁触发 GC」，我会用 JDK 自带工具完成核心数据采集：

用jstat实时监控 GC 的完整状态执行命令：jstat -gc <Java进程PID> 1000，每秒输出一次 GC 数据，重点关注这几个核心指标：

- YGC/YGCT：Young GC 的总次数和总耗时，看 GC 的触发频率，比如 1 秒触发几次，肯定是异常的；
- EC/EU：Eden 区的总大小和当前使用量，看是不是 Eden 区刚被填满就触发了 GC；
- S0U/S1U：两个 Survivor 区的使用量，看 GC 后存活的对象能不能被 Survivor 区装下；
- OC/OU：老年代的总大小和使用量，看是不是伴随老年代快速增长，有没有对象频繁提前晋升到老年代。

定位高频创建的对象来源执行命令：jmap -histo <Java进程PID> | head -20，查看堆里占用内存最高的前 20 个对象类型，快速定位是哪类对象在被频繁创建；线上紧急排查时，我会用阿里的 Arthas 工具，直接通过heapdump或者profiler命令，一步定位到创建对象最多的业务方法和代码行。

第二步：优先优化业务代码（根本解决方案）

我在线上排查过的频繁 Minor GC 问题，90% 的根因都在业务代码上，优化代码的收益远大于盲目调整 JVM 参数，常见的问题场景和优化方案如下：

循环内频繁创建临时对象最常见的问题：for 循环里用+拼接 String 字符串、循环内重复 new 对象，每次循环都会生成大量新的短期对象，快速填满 Eden 区。优化方案：循环外提前创建对象复用、字符串拼接改用StringBuilder、循环内的不变对象提取到循环外。
高并发场景下，单次请求创建大量临时对象比如接口里全量查询几万条数据，批量生成 DTO/VO 对象、Excel 导出时一次性加载全量数据到内存、频繁的 JSON 序列化 / 反序列化，都会在短时间内生成大量用完即丢的对象，触发频繁 GC。优化方案：数据查询做分页、分批处理、复用序列化对象、大文件导出用流式处理，避免一次性加载全量数据到内存。
不合理的对象复用设计比如每次请求都新建连接对象、缓存对象，而不是用池化技术复用；或者大的 byte 数组、字符串对象每次都新建，没有复用机制。优化方案：用线程池、连接池、对象池复用长期存活的对象，减少重复创建销毁的开销。

第三步：针对性调整 JVM 参数（兜底优化）

如果代码已经优化到极致，确实是新生代空间配置不合理导致的频繁 GC，我会针对性调整 JVM 参数，核心优化方向如下：

调整新生代总大小，降低 GC 触发频率这是最基础的优化，通过-Xmn（或者-XX:NewSize/-XX:MaxNewSize）增大新生代空间，一般新生代设置为整个堆内存的 1/3~1/2。比如堆内存 8G，原来新生代只有 1G，Eden 区 800M，高峰期几秒就被填满；调整新生代到 2G 后，Eden 区变大，填满的时间大幅拉长，GC 频率自然降低。注意：不能盲目把新生代设得过大，否则会挤压老年代的空间，反而导致 Full GC 频繁，同时单次 Minor GC 的停顿时间也会变长，要平衡「GC 频率」和「单次 GC 停顿时间」。
调整 Survivor 区比例，避免对象提前晋升如果通过jstat发现，每次 Minor GC 后存活对象太多，Survivor 区装不下，导致大量短期对象提前晋升到老年代，就需要调整-XX:SurvivorRatio参数。这个参数默认是 8，代表 Eden:Survivor0:Survivor1=8:1:1；如果 Survivor 区空间不足，可以调整为 6，让单个 Survivor 区占新生代的 1/8，有更多空间存放存活对象，避免对象过早进入老年代，减少老年代的 GC 压力。
调整对象晋升年龄，让短期对象在新生代被回收通过-XX:MaxTenuringThreshold调整对象晋升到老年代的年龄阈值，默认是 15。如果发现很多短期对象因为年龄达标被晋升到老年代，可以适当调大这个值，让对象在新生代多经历几次 Minor GC，被回收掉，不进入老年代。
针对 G1 收集器的专属优化如果用的是 G1 收集器，频繁 Young GC 大概率是两个原因：

- 最大停顿时间-XX:MaxGCPauseMillis设置得过小，G1 为了满足停顿目标，自动把新生代缩得很小，导致频繁 GC；可以适当调大这个阈值，给新生代足够的空间；
- 通过-XX:G1NewSizePercent/-XX:G1MaxNewSizePercent，限制新生代的最小和最大占比，避免 G1 自动把新生代缩得太小。

真实优化案例

我之前处理过一个电商商品列表接口，高峰期 1 秒触发 2 次 Minor GC，接口响应时间波动极大。用jmap发现堆里 String 对象占比超过 60%，最终定位到是循环里用+拼接商品描述，每次循环都创建新的 String 对象。改成StringBuilder后，Minor GC 频率直接降到 1 分钟 2 次，接口 99 分位响应时间从 200ms 降到 50ms 以内，没有调整任何 JVM 参数就解决了问题。

一问一答：频繁 Full GC 的排查与优化方案

问：线上服务频繁触发 Full GC，该怎么排查和处理？答：频繁 Full GC 是线上最严重的 JVM 问题之一，会导致长时间 STW（Stop The World），引发接口超时、服务卡顿，甚至最终 OOM 宕机。我有一套标准的「先定位根因，再针对性优化」的线上排查流程，核心是先搞清楚 Full GC 的触发原因，再对应解决，绝对不会盲目调整 JVM 参数，完整方案如下：

一、先明确：频繁 Full GC 的核心触发原因

我在线上排查过的 Full GC 问题，99% 都来自这几类场景，先搞清楚根因才能精准解决：

老年代被占满（最常见）

- 大对象 / 超大对象直接进入老年代：比如 SQL 查询不分页全量加载几万条数据、一次性生成大 Excel 文件、创建超大 byte 数组，这些对象超过 Eden 区的一半大小，会直接进入老年代，快速填满空间。
- 对象提前晋升：Survivor 区空间不足，或者 JVM 的动态年龄判断机制，导致大量短期存活的对象，还没被回收就提前进入老年代，让老年代占用率快速上涨。
- 内存泄漏：对象被无效的强引用长期持有，GC 永远无法回收，老年代占用率持续上涨，最终占满触发 Full GC，最终引发 OOM。最常见的场景：静态集合无限添加对象不清理、ThreadLocal 用完没调用remove()、数据库连接 / IO 流用完没关闭、本地缓存没有设置过期时间和最大容量。

元空间 / 永久代占满频繁反射、动态代理、热加载、JSON 序列化框架动态生成类，会在元空间生成大量 Class 对象，元空间没有设置上限或者设置过小，被占满后会强制触发 Full GC。
显式主动触发 GC业务代码、或者依赖的第三方框架里，主动调用了System.gc()，会强制触发 Full GC。
堆外内存泄漏Netty 的 Direct Buffer、MappedByteBuffer 这类堆外内存泄漏，占满后会触发 Full GC 来回收堆外内存。
JVM 参数设置不合理新生代设置过小、老年代占比过低、Survivor 区比例不对，导致对象频繁进入老年代，快速触发 Full GC。

二、线上标准排查流程（从快速定位到深度根因分析）

步骤 1：快速定位触发场景，排除简单问题

我会先通过监控和基础命令，10 分钟内初步定位问题范围：

先看监控大盘：确认 Full GC 的触发频率、单次停顿时间、老年代 / 元空间的内存走势，同时对比问题发生前后，有没有代码上线、配置变更、流量突增的情况，缩小排查范围。
用jstat实时监控 GC 核心状态，执行命令：

bash

运行

jstat -gcutil <Java进程PID> 1000

每秒输出一次 GC 数据，重点看 3 个核心指标：

- O列：老年代占用率。如果每次 Full GC 后，老年代占用率只下降一点点，甚至几乎不下降，几乎可以确定是内存泄漏；
- M列：元空间占用率。如果持续上涨到 100%，就是元空间被占满触发的 Full GC；
- YGC/FGC：Young GC 和 Full GC 的次数、耗时，看是不是伴随 Young GC 频繁，对象大量提前晋升到老年代。

先排除最简单的问题：给服务加上 JVM 参数-XX:+DisableExplicitGC，禁用显式的System.gc()，先排除主动触发 GC 的问题。

步骤 2：深度定位堆内大对象 / 内存泄漏的根因

如果初步判断是老年代占满的问题，我会继续深度定位：

先快速看堆内对象分布，执行命令：

bash

运行

jmap -histo <Java进程PID> | head -20

直接输出堆里占用内存最大的前 20 个对象类型，快速定位是哪类对象在占用老年代，比如是 String、Excel 对象、还是数据库连接对象，缩小排查范围。

导出堆内存快照（dump 文件），做深度分析：

- 服务还在运行时，低峰期执行命令：jmap -dump:live,format=b,file=/home/heap.hprof <Java进程PID>，live参数只 dump 存活对象，减小文件体积；
- 如果服务已经 OOM 宕机，我会提前给线上服务配置自动 dump 的 JVM 参数：

plaintext

-XX:+HeapDumpOnOutOfMemoryError
-XX:HeapDumpPath=/opt/crashes/heap.hprof

服务 OOM 时会自动保存堆快照，不会丢失故障现场。

用专业工具分析 dump 文件，定位到具体代码：我会用 **MAT（Eclipse Memory Analyzer）** 打开 dump 文件，它会自动分析内存泄漏的可疑点，通过「支配树视图」看对象的内存占比，再通过「引用链视图」找到持有这个对象的根对象，直接定位到具体的业务代码行，比如是哪个静态集合、哪个缓存、哪个 ThreadLocal 导致的内存泄漏。

步骤 3：排查非堆内存的问题

如果堆内没有问题，我会继续排查非堆内存：

元空间问题：给服务加上-XX:NativeMemoryTracking=detail开启 NMT，执行jcmd <PID> VM.native_memory detail查看元空间的详细占用，定位是不是动态生成类太多，调整-XX:MaxMetaspaceSize设置合理的上限。
堆外内存问题：同样用 NMT 查看Internal区域的 Direct Buffer 占用，排查是不是 Netty 堆外内存没释放、或者堆外内存没有设置上限。

三、针对性优化方案（分场景解决问题）

场景 1：内存泄漏导致的频繁 Full GC

核心是修复业务代码，这是根本解决方案：

静态集合用完及时清理元素，避免无限添加对象；
ThreadLocal 用完必须手动调用remove()，尤其是线程池场景下，线程是常驻的，不清理会导致对象永远无法回收；
数据库连接、IO 流用try-with-resources语法，自动关闭释放资源；
本地缓存必须设置过期时间和最大容量，避免无限累积对象，非核心对象用软引用 / 弱引用包裹。

场景 2：大对象 / 短期对象频繁进入老年代

代码优化（优先）：SQL 查询做分页、大数据分批处理、Excel 导出用流式处理、避免循环里创建大对象、大对象池化复用。
JVM 参数兜底优化：

- 增大新生代空间，调整-XX:SurvivorRatio，让 Survivor 区能装下每次 Young GC 后的存活对象，避免对象提前晋升；
- 调整-XX:PretenureSizeThreshold，提高大对象直接进入老年代的阈值，让更多大对象在新生代分配和回收；
- 调整-XX:MaxTenuringThreshold，提高对象晋升到老年代的年龄阈值，让短期对象在新生代多经历几次 GC，被回收掉。

场景 3：JVM 参数不合理

合理设置堆总大小：一般设置为服务器总内存的 50%~70%，预留足够空间给系统、元空间和堆外内存；
新生代和老年代的比例：ParNew+CMS 组合，新生代一般设置为堆的 1/3；G1 收集器不用固定比例，通过-XX:MaxGCPauseMillis控制停顿时间即可；
禁用显式 GC：加上-XX:+DisableExplicitGC，避免代码主动触发 Full GC。

真实线上优化案例（面试加分项）

我之前处理过一个运营报表服务，一天触发十几次 Full GC，每次 GC 后老年代内存只下降不到 10%，最终会 OOM 宕机。我先用jstat发现老年代占用率持续上涨，jmap -histo看到 Excel 相关对象占了堆内存的 70%，导出 dump 文件用 MAT 分析后，发现生成报表的 Excel 工作簿对象，被一个静态的全局缓存集合持有，用完没有移除，导致对象永远无法被 GC 回收，最终占满老年代。修复代码，给缓存加上过期时间、用完主动移除的逻辑后，服务的 Full GC 直接降到一周 1 次以内，运行完全稳定，没有调整任何 JVM 参数就解决了问题。

一问一答：OOM 内存溢出问题的定位与处理（面试高分版）

问：有没有处理过内存溢出 (OOM) 问题？是如何定位的？答：我处理过多次线上服务的 OOM 故障，有一套成熟的「先保现场、再从宏观到微观逐层定位」的标准流程，核心是先通过监控和命令快速缩小排查范围，再通过堆快照深度分析定位到具体代码，同时我会提前给线上服务做好预案，避免故障现场丢失。我先给你讲完整的定位流程，再补充我处理过的真实线上案例。

一、先明确：OOM 的前置异常表现

内存溢出不是突然发生的，故障前会有明显的异常信号，提前发现就能避免服务宕机：

服务性能持续下降，接口响应时间越来越长，频繁超时；
服务器 CPU 使用率持续飙高，甚至到 100%，核心是 GC 线程占用了大量 CPU；
监控里看到 Full GC 频繁触发，甚至一分钟几次，每次 GC 后老年代内存几乎不下降；
最终服务抛出java.lang.OutOfMemoryError错误，直接宕机。

二、线上 OOM 完整定位流程（从快速排查到根因定位）

步骤 1：提前做好预案，保留故障现场

这是最关键的一步，避免服务宕机后丢失现场。我给所有线上 Java 服务都提前配置了这两个 JVM 参数：

plaintext

-XX:+HeapDumpOnOutOfMemoryError
-XX:HeapDumpPath=/opt/service/crashes/heap.hprof

服务一旦发生 OOM，会自动把当前堆内存的完整快照保存到指定路径，哪怕服务直接宕机，也能拿到完整的故障现场。

步骤 2：确认进程与系统资源情况

先通过基础命令，确认是当前 Java 进程导致的问题：

执行jps -l，找到目标 Java 服务的进程 ID（PID）；
执行top -p <PID>，查看这个进程的 CPU、内存整体占用情况，确认是不是这个 Java 进程占满了系统资源。

步骤 3：通过 GC 状态，初步判断是不是内存泄漏

OOM 绝大多数都是内存泄漏导致的，我会用jstat命令实时查看 GC 状态，执行：

bash

运行

jstat -gcutil <PID> 1000

这个命令会每秒输出一次 GC 的核心数据，重点看两个指标：

FGC：Full GC 的总次数，如果短时间内快速增长，说明老年代一直在被占满；
O：老年代的内存占用率，如果每次 Full GC 后，老年代占用率只下降一点点，甚至持续上涨到 90% 以上，几乎可以 100% 确定是发生了内存泄漏 —— 对象被无效的强引用持有，GC 永远无法回收。

步骤 4：快速定位大对象，缩小排查范围

不用等完整的 dump 文件分析，我会先执行这个命令，10 秒内定位到占内存的对象类型：

bash

运行

jmap -histo:live <PID> | head -20

这个命令会输出堆里占用内存最大的前 20 个对象类型，包括对象数量、总占用内存、全限定类名，能快速知道是哪类对象占满了堆内存，比如是 String、Excel 对象、数据库连接对象，还是业务里的订单 / 用户 DTO 对象，直接把排查范围缩小到具体的业务模块。

步骤 5：导出堆快照，做深度根因分析

如果服务还在运行，我会在低峰期执行命令，导出堆内存的完整快照：

bash

运行

jmap -dump:live,format=b,file=/opt/heap.hprof <PID>

这里的live参数是只 dump 当前存活的对象，能大幅减小 dump 文件的体积，提升后续分析效率。如果服务已经 OOM 宕机，就用提前配置自动生成的 dump 文件。

步骤 6：用专业工具分析 dump 文件，定位到具体代码

我首选MAT（Eclipse Memory Analyzer），它是专业的堆内存分析工具，也是线上 OOM 排查的神器：

用 MAT 打开 dump 文件，它会自动生成「内存泄漏可疑点报告」，直接告诉你哪个对象、哪个类占用了最大比例的内存；
通过「支配树视图」，查看对象的内存占比排序，找到占用内存最大的对象；
通过「引用链视图」，顺着引用往上找，找到最终持有这个对象的「根对象」，直接定位到具体的业务类、方法，甚至代码行号，比如是哪个静态集合、哪个本地缓存、哪个 ThreadLocal 导致的对象无法被回收。除此之外，本地简单分析也可以用 JDK 自带的 VisualVM、商用的 JProfiler，或者在线分析工具 GCEasy。

步骤 7：补充排查非堆内存导致的 OOM

如果堆内存分析没有问题，我会继续排查非堆内存的 OOM 场景：

元空间溢出：频繁反射、动态代理、热加载导致大量动态生成的 Class 无法被卸载，元空间被占满。我会用-XX:NativeMemoryTracking=detail开启 NMT，执行jcmd <PID> VM.native_memory detail查看元空间的详细占用，调整-XX:MaxMetaspaceSize设置合理的上限；
堆外内存溢出：Netty 的 Direct Buffer、MappedByteBuffer 这类堆外内存泄漏，我会用 NMT 查看Internal区域的占用，或者用 Arthas 的堆外内存监控命令定位；
栈溢出：StackOverflowError，一般是无限递归、循环调用导致的，直接看报错里的堆栈信息，就能定位到循环调用的代码。

三、我处理过的真实线上 OOM 案例（面试加分项）

我之前处理过一个电商运营后台的 OOM 故障，服务每天都会偶发 OOM 宕机，完整处理过程如下：

现象：运营后台每天高峰期都会频繁 Full GC，最终抛出 OOM 宕机，监控里看到老年代内存持续上涨，每次 GC 后只下降不到 10%。
初步定位：用jmap -histo发现堆里 Excel 相关的对象占了 70% 的内存，最终定位到订单导出功能。
根因分析：导出功能会生成 Excel 工作簿对象，这个对象被一个静态的全局缓存集合持有，用完之后没有从集合里移除，导致对象永远被强引用持有，GC 无法回收，最终占满老年代触发 OOM。
解决方案：修复代码，给缓存加上过期时间，导出完成后主动从集合里移除对象，同时给缓存加上最大容量限制，避免无限累积。
最终效果：修复上线后，服务的 Full GC 从一天十几次降到一周 1 次以内，再也没有发生过 OOM 宕机，运行完全稳定。

四、线上 OOM 最常见的根因总结

我处理过的 OOM 故障，90% 都来自这几类场景：

内存泄漏：静态集合无限添加对象不清理、ThreadLocal 用完没调用remove()、数据库连接 / IO 流用完没关闭、本地缓存没有过期策略，这是最常见的原因；
大对象 / 全量加载：SQL 查询不分页全量加载几万条数据、一次性生成大 Excel 文件、超大 byte 数组，直接占满老年代；
频繁创建短期对象：高并发场景下，单次请求创建大量临时对象，GC 回收速度跟不上创建速度，最终触发 OOM；
非堆内存泄漏：元空间、堆外内存泄漏导致的 OOM。

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

面试题：PEFT-LoRA 及变种详解——LoRA 原理、矩阵初始化、作用矩阵、Rank/Alpha 选择、过拟合治理、rsLoRA/AdaLoRA/DoRA/LoRA-GA/QLoRA 全解析

10.1 QLoRA 的核心思路QLoRA 可以理解成“量化底座 + LoRA 训练”。它把预训练大模型以 4-bit 形式加载并冻结，只训练 LoRA 适配器。这样既保留了大模型能力，又显著降低了显存需求。10.2 QLoRA 为什么省显存？因为基础模型权重被量化成更低比特，并且不参与训练。训练时主要更新 LoRA 小矩阵，而不是整套大模型参数。QLoRA 还引入了 NF4、双重量化、分页优化器

AtomGit开源社区

智能体 Agent 完全拆解：架构、组件与实战指南

AtomGit开源社区

Bragi：一个能持续记住世界观的 AI 架空世界与互动故事引擎

Bragi 是一个面向幻想创作者、小说作者、TRPG 主持人和 AI 写作爱好者的开源项目。它不是简单地让 AI 生成一段小说，而是尝试解决 AI 长篇创作中最常见的问题：设定容易忘、人物容易崩、剧情越写越乱。Bragi 通过时间路径、空间路径、角色记录和事件管理，让一个架空世界可以持续扩展，并在后续剧情中保持基本一致性。

AtomGit开源社区

所有评论(0)

查看更多评论

逻辑驱动的ken

@DreamComeTrue001

已为社区贡献7条内容

Java高频面试考点：JVM调优与故障排查实战指南

逻辑驱动的ken

一问一答：对象分配与逃逸分析技术

一问一答：JVM 监控与故障处理工具

一、JDK 自带命令行工具（线上核心）

二、JDK 自带可视化工具

三、第三方专业分析工具

一问一答：JVM 常见参数配置

一、堆内存核心配置参数

二、垃圾收集器选择参数

三、GC 调优核心参数

四、GC 日志打印参数（线上排查必用）

一问一答：JVM 调优经验

一、我遵循的标准 JVM 调优完整流程

二、我处理过的线上 JVM 调优真实案例

调优总结

一问一答：线上服务 CPU 占用过高排查方案

第一步：定位占用 CPU 最高的 Java 进程

第二步：定位进程里占用 CPU 最高的线程

第三步：把线程 ID 转换成 16 进制

第四步：通过线程快照定位到具体代码

补充：线上 CPU 过高的常见根因 & 进阶排查

1. 最常见的 CPU 飙高根因

2. 进阶快速排查工具

真实排查案例

一问一答：线上服务内存飙高排查方案

第一步：实时监控 GC 与内存分布，初步区分问题类型

第二步：导出堆内存快照（dump 文件），为深度分析做准备

第三步：离线深度分析 dump 文件，定位到具体业务代码

补充：容易被忽略的堆外内存飙高排查

线上内存飙高的常见根因 & 真实案例

一问一答：频繁 Minor GC 的排查与优化方案

第一步：先通过监控定位问题根因，区分场景

第二步：优先优化业务代码（根本解决方案）

第三步：针对性调整 JVM 参数（兜底优化）

真实优化案例

一问一答：频繁 Full GC 的排查与优化方案

一、先明确：频繁 Full GC 的核心触发原因

二、线上标准排查流程（从快速定位到深度根因分析）

步骤 1：快速定位触发场景，排除简单问题

步骤 2：深度定位堆内大对象 / 内存泄漏的根因

步骤 3：排查非堆内存的问题

三、针对性优化方案（分场景解决问题）

场景 1：内存泄漏导致的频繁 Full GC

场景 2：大对象 / 短期对象频繁进入老年代

场景 3：JVM 参数不合理

真实线上优化案例（面试加分项）

一问一答：OOM 内存溢出问题的定位与处理（面试高分版）

一、先明确：OOM 的前置异常表现

二、线上 OOM 完整定位流程（从快速排查到根因定位）

步骤 1：提前做好预案，保留故障现场

步骤 2：确认进程与系统资源情况

步骤 3：通过 GC 状态，初步判断是不是内存泄漏

步骤 4：快速定位大对象，缩小排查范围

步骤 5：导出堆快照，做深度根因分析

步骤 6：用专业工具分析 dump 文件，定位到具体代码

步骤 7：补充排查非堆内存导致的 OOM

三、我处理过的真实线上 OOM 案例（面试加分项）

四、线上 OOM 最常见的根因总结

所有评论(0)

温馨提示：您尚未绑定手机号

逻辑驱动的ken