Linux性能问题排查

施小赞

8037人浏览 · 2021-11-25 14:39:43

施小赞 · 2021-11-25 14:39:43 发布

1、生产环境服务器变慢，诊断思路和性能评估谈谈?

整机：top uptime,系统性能命令的精简版

CPU：vmstat

vmstat -n 2 3

一般vmstat工具的使用是通过两个数字参数来完成的，第一个参数是采样的时间间隔单位是秒，第二个参数是采样的次数

- procs

r:运行和等待CPU时间片的进程数，原则上1核的CPU的运行队列不要超过2，整个系统的运行队列不能超过总核数的2倍，否则代表系统压力过大
b:等待资源的进程数，比如正在等待磁盘I/O，网络I/O等。

- cpu

us :用户进程消耗CPU时间百分比，us值高，用户进程消耗CPU时间多，如果长期大于50%，优化程序；
sy : 内核进程消耗的CPU时间百分比；
us + sy : 参考值为80%，如果us + sy 大于 80%,说明可能存在CPU不足
id : 处于空闲的CPU百分比
wa : 系统等待IO的CPU时间百分比
st : 来自于一个虚拟机偷取的CPU时间的百分比

查看所有核的CPU信息:  mpstat -P ALL 2

每个进程使用cpu的用量分解信息 : pidstat -u 1 -p 进程编号

内存：free

应用程序可用内存数

- 经验值

应用程序可用内存/系统物理内存>70%内存充足
应用程序可用内存/系统物理内存<20%内存不足，需要增加内存
20%<应用程序可用内存/系统物理内存<70% 内存基本可用

查看额外：

pidstat -p 进程号 -r 采样间隔秒数

硬盘：df

查看磁盘剩余空闲数

磁盘IO：iostat

磁盘I/O性能评估

iostat -xdk 2 3

磁盘块设备分布

rkB/s 每秒读取数据量KB;

wkB/s 每秒写入数据量KB;

svctm I/O 请求的平均服务时间，单位毫秒；

await I/O 请求的平均等待时间，单位毫秒；值越小，性能越好；

util 一秒钟有百分几的时间用于I/O操作。接近100%时，表示磁盘带宽跑满，需要优化程序或者增加磁盘

rkB/s ,wkB/s 根据系统应用不同会有不同的值，但有规律遵循:长期、超大数据读写，肯定不正常，需要优化程序读取。

svctm的值与await的值很接近，表示几乎没有I/O等待，磁盘性能好

如果await的值远高于scvtm的值，则表示I/O队列等待太长，需要优化，需要优化程序或更换更快磁盘。

查看额外

pidstat -d 采样间隔秒数 -p 进程号

网络IO：ifstat

各个网卡的in,out

观察网络负载情况

程序网络读写是否正常

-程序网络I/O优化

-增加网络I/O带宽

2、假如生产环境出现CPU占用过高，请谈谈你的分析思路和定位

结合Linux和JDK命令一块分析

案例步骤：

(1) 先用top命令找出CPU占比最高的,然后再按shift+p按照CPU排序，找到占用CPU过高的进程的pid

(2) ps -ef或者jps进一步定位，得知是一个怎么样的一个后台程序

(3) 定位到具体线程或者代码

①ps -mp 进程 -o THREAD,tid,time | sort -rn

②参数解释 -m 显示所有线程

-p pid进程使用cpu的时间

-o 该参数后是用户自定义格式

sort -rn 排序

或者 top -H -p [进程id] 找到进程中消耗资源最高的线程的id

(4) 将需要的线程ID转换为16进制格式(英文小写格式)

printf "%x\n" 有问题的线程ID

(5) jstack 进程ID | grep tid(16进制线程ID小写英文) -A60

3、对于JDK自带的JVM监控和性能分析工具用过哪些？一般你是怎么用的？

jps(虚拟机进程状况工具)

jinfo(Java配置信息工具)

jmap(内存映像工具)

jstat(统计信息监控工具)

jstack(堆栈异常跟踪工具)

jvisualvm

jconsole

GitCode 开源社区

旨在为数千万中国开发者提供一个无缝且高效的云端环境，以支持学习、使用和贡献开源项目。

更多推荐

2025科研新风向！Top5文献阅读管理工具全测评

GitCode 开源社区

开源SOTA：阶跃发布端到端语音大模型Step-Audio 2 mini！

GitCode 开源社区

2025学术利器揭晓！Top5文献管理工具助攻科研创新

GitCode 开源社区

所有评论(0)

查看更多评论

施小赞

@dyangel2013

已为社区贡献2条内容