线上linux系统故障排查之一:CPU使用率过高

《线上linux系统故障排查之一:CPU使用率过高》
《线上linux系统故障排查之二:内存占用过高》

一个应用占用CPU很高,除了确实是计算密集型应用之外,通常原因都是出现了死循环。
下面我们将一步步定位问题,详尽的介绍每一步骤的相关知识。

一、通过top命令定位占用cpu高的进程

执行top命令得到以下结果:


top命令执行结果

通过上图可以明显看出进程PID41843占用cpu过高,明显存在问题,定位到了进程id。当然如果你想只观察进程PID41843的CPU和内存以及负载情况,可以使用以下命令

top -p 41843。

结果如下:


top -p 41843命令执行结果

这里顺便解释下上图各个参数的意义,有利于读者更好的排查问题。

  1. 第一行是任务队列信息
    top - 14:06:34 up 537 days, 6 min, 6 users, load average: 0.41, 0.45, 0.43
任务队列信息 含义
14:06:34 当前时间
537 days 系统运行时间
6 min 用户在线时间
6 users 在线用户数
load average: 0.41, 0.45, 0.43 系统负载,即任务队列的平均长度。1分钟前、5分钟前、15分钟前平均负载

2)第二行为进程的信息

进程信息 含义
Tasks: 1 total 进程总数
0 running 正在运行的进程数
1 sleeping 睡眠的进程数
0 stopped 停止的进程数
0 zombie 僵尸进程数
  1. 第三行为cpu信息
cpu信息 含义
6.1% us 用户空间占用CPU百分比
1.5% sy 内核空间占用CPU百分比
0.0% ni 用户进程空间内改变过优先级的进程占用CPU百分比
92.2% id 空闲CPU百分比
0.0% wa 等待输入输出的CPU时间百分比
0.0% hi 硬件中断
0.0% si 软件中断
0.0%st 实时
  1. 第四、五行为内存信息。
    内容如下:
物理内存信息 含义
Mem: 191272k total 物理内存总量
173656k used 使用的物理内存总量
17616k free 空闲内存总量
22052k buffers 用作内核缓存的内存量
交换区信息 含义
Swap: 192772k total 交换区总量
0k used 使用的交换区总量
192772k free 空闲交换区总量
123988k cached 缓冲的交换区总量

二、通过top命令定位问题进程中每个线程占用cpu情况

通过问题进程中每个线程占用cpu情况使用可以使用如下命令:

top -p 41843 -H

查看进程PID41843的每一个线程占用CPU情况,如图。


top -p 41843 -H的执行结果

由上图明显可以发现,线程PID41892CPU占用率最高,接下来定位该线程的代码是否出现异常导致cpu占用过高。

三、通过jstack 命令定位问题代码

上一步发现PID41892占用的CPU过高,就将这个PID转换成16进制,易知,PID41892转化成16进制为a3a4。使用如下命令命令定位问题代码:

jstack 41892 | grep a3a4

输出如下:

"Thread" prio=10 tid=0x00007f950043e000 nid=0x54ee in test();

可以分析得到: 线程Thread下的wait()函数cpu使用率很高,查看源代码中的test()函数代码如下:

public void test(){
  while(true){
     for(int i = 0 ;i<100;i++);
  }
}

while循环无法结束,一直抢占cpu,导致程序cpu使用过高,修改代码即可。
到此为止,因为代码问题导致的cpu使用过高的故障排查方法就介绍完了。

tips:由于内存的原因,频繁的GC,也可能导致cpu使用过高,内存的解决方案在文章《线上linux系统故障排查之二:内存占用过高》中介绍。

四、终极大杀器

笔者是喜欢一、二、三步骤定位cpu使用率过高的问题,但是如果读者觉得以上方法不喜欢或者以上无法定位问题时,可以使用jstack方法获取进程PID41843包含的运行线程的所有状态。使用如下命令:

jstack -l 41843
或者将结果输入在dump.txt文档中:jstack -l 41843 >> dump.txt

首先我们来介绍下,Jstack的输出中,Java线程状态的四种状态的概念:

RUNNABLE 线程运行中或I/O等待
BLOCKED 线程在等待monitor锁(synchronized关键字)
TIMED_WAITING 线程在等待唤醒,但设置了时限
WAITING 线程在无限等待唤醒

接下来用简单的代码模拟这4种状态的发生,同时介绍下问题的排查方法。
1) 让线程一直处于RUNNABLE状态

public static void main(String[] args) {
    printPId();//打印进程id

    runnable();//模拟RUNNABLE状态方法,第14行
}

public static void runnable(){//第19行
    int i = 0;
    while (true) {
        i++;
    }
}

public static void printPId() {
    String name = ManagementFactory.getRuntimeMXBean().getName();
    System.out.println(name.split("@")[0]);
}

执行main函数,使用命令jstack -l PID(pid为printPId函数打印的值),得到以下输出信息:状态为RUNNABLE,程序在Test类的runnable()方法中占用cpu,一般该状态不会出现问题。但是如果多次执行该命令,发现cpu在持续执行该方法,且cpu使用过高,可以排查runnable()方法是否存在死循环等持续占用cpu的情况。

"main" #1 prio=5 os_prio=0 tid=0x00000000023fe000 nid=0x2ab8 runnable [0x0000000
0026df000]
java.lang.Thread.State: RUNNABLE
at Test.runnable(Test.java:19)
at Test.main(Test.java:14)

Locked ownable synchronizers:
-None

2) 让线程一直处于BLOCKED状态(重点关注)

public static void main(String[] args) {
    printPId();//打印进程id

    blocked();//模拟BLOCKED状态方法,第16行
}

public static void blocked(){
    Integer lock = 0;
    new Thread() {
        public void run() {
            synchronized (lock) {
                try {
                    Thread.sleep(1000 * 1000);//26行
                } catch (Exception e) {
                    e.printStackTrace();
                }
            }
        }
    }.start();

    try { Thread.sleep(100); } catch (Exception e) {e.printStackTrace();}

    synchronized (lock) {
        try {
            Thread.sleep(10 * 1000);//第37行
        } catch (Exception e) {
            e.printStackTrace();
        }
    }
}

public static void printPId() {
    String name = ManagementFactory.getRuntimeMXBean().getName();
    System.out.println(name.split("@")[0]);
}

主线程sleep,先让另外一个线程拿到lock,并长期持有lock(sleep会持有锁,wait不会)。此时主线程会BLOCK住等待lock被释放,此时jstack的输出可以看到main线程状态是BLOCKED。
根据以下输出可以看出:
1)线程状态是 Blocked,阻塞状态。说明线程等待资源超时!
2)“ waiting to lock <0x00000000d6f7a970>”,指该地址被占用了,线程在等待给这个 0x00000000d6f7a970地址上锁。
3)在 dump 日志里查找字符串 0x00000000d6f7a970,如果发现有大量线程都在等待给这个地址上锁。则存在问题。继续查找字符串0x00000000d6f7a970,发现locked <0x00000000d6f7a970> (a java.lang.Integer)给地址上锁,却未释放,查找该出代码问题。
4)“waiting for monitor entry”说明此线程通过 synchronized(obj) {……} 申请进入了临界区。
5)第一行里,"main"是 Thread Name 。tid指Java Thread id。nid指native线程的id。prio是线程优先级。[0x00000000027af000]是线程栈起始地址。

"main" #1 prio=5 os_prio=0 tid=0x000000000244e000 nid=0x2218 waiting for monitor
entry [0x00000000027af000]
java.lang.Thread.State: BLOCKED (on object monitor)
at Test.blocked(Test.java:37)
-waiting to lock <0x00000000d6f7a970> (a java.lang.Integer)
at Test.main(Test.java:16)

Locked ownable synchronizers:
-None

"Thread-0" #10 prio=5 os_prio=0 tid=0x0000000058893800 nid=0x1cc8 waiting on con
dition [0x00000000599ae000]
java.lang.Thread.State: TIMED_WAITING (sleeping)
at java.lang.Thread.sleep(Native Method)
at Test$1.run(Test.java:26)
-locked <0x00000000d6f7a970> (a java.lang.Integer)

Locked ownable synchronizers:
-None

3) 让线程处于TIMED_WAITING状态

public static void main(String[] args) {
   printPId();//打印进程id

   timedWaiting();//模拟TIMED_WAITING状态方法
}

public static void timedWaiting() {
    Integer lock = 0;
    synchronized (lock) {
       try {
           lock.wait(100 * 1000);
       } catch (Exception e) {
           e.printStackTrace();
       }
   }
}

public static void printPId() {
   String name = ManagementFactory.getRuntimeMXBean().getName();
   System.out.println(name.split("@")[0]);
}

根据以下输出可以看出:
1)“TIMED_WAITING ”中的 timed_waiting 指等待状态,但这里指定了时间,到达指定的时间后自动退出等待状态。

"main" #1 prio=5 os_prio=0 tid=0x0000000001c1e000 nid=0x1c78 in Object.wait() [0
x000000000272f000]
java.lang.Thread.State: TIMED_WAITING (on object monitor)
at java.lang.Object.wait(Native Method)
-waiting on <0x00000000d6f7a970> (a java.lang.Integer)
at Test.timedWaiting(Test.java:25)
-locked <0x00000000d6f7a970> (a java.lang.Integer)
at Test.main(Test.java:18)

Locked ownable synchronizers:
-None

4) 让线程处于WAITING状态状态

public static void main(String[] args) {
  printPId();//打印进程id

  waiting();//模拟waiting状态方法
}

public static void waiting() {
  Integer lock = 0;
  synchronized (lock) {
      try {
          lock.wait();
      } catch (Exception e) {
          e.printStackTrace();
      }
  }
}

public static void printPId() {
  String name = ManagementFactory.getRuntimeMXBean().getName();
  System.out.println(name.split("@")[0]);
}

无超时的等待,必须等待lock.notify()或lock.notifyAll()或接收到interrupt信号才能退出等待状态。同理,ReentrantLock.lock()的无参方法调用,也会使线程状态变成WAITING。

"main" #1 prio=5 os_prio=0 tid=0x00000000024ce000 nid=0x2b14 in Object.wait() [0
x00000000025ef000]
java.lang.Thread.State: WAITING (on object monitor)
at java.lang.Object.wait(Native Method)
-waiting on <0x00000000d6f7a970> (a java.lang.Integer)
at java.lang.Object.wait(Unknown Source)
at Test.waiting(Test.java:27)
-locked <0x00000000d6f7a970> (a java.lang.Integer)
at Test.main(Test.java:20)

Locked ownable synchronizers:
-None

掌握各个线程的状态和信息,将无往而不利~~

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 156,265评论 4 359
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 66,274评论 1 288
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 106,087评论 0 237
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 43,479评论 0 203
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 51,782评论 3 285
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 40,218评论 1 207
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 31,594评论 2 309
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 30,316评论 0 194
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 33,955评论 1 237
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 30,274评论 2 240
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 31,803评论 1 255
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 28,177评论 2 250
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 32,732评论 3 229
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 25,953评论 0 8
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 26,687评论 0 192
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 35,263评论 2 267
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 35,189评论 2 258

推荐阅读更多精彩内容

  • 背景 10月2号凌晨12:08收到报警,所有请求失败,处于完全不可用状态 应用服务器共四台resin,resin之...
    军哥ye话阅读 21,798评论 6 16
  • Java程序员进阶三条必经之路:数据库、虚拟机、异步通信。 前言 入门JVM垃圾回收机制后,接下来可以学习性能调优...
    MountainKing阅读 22,982评论 1 35
  • ANR问题,相信是每位开发日常都会遇到的问题,对于这类问题的分析,按照官方的推荐,或网络博客的总结思路能解决一定的...
    tiger桂阅读 17,413评论 5 27
  • 参考自 http://techblog.youdao.com/?p=961 在分析具体故障,先介绍一下几种常用的工...
    抓兔子的猫阅读 5,863评论 1 27
  • 错过,是个非常浪漫的词语。就像缺陷美一样,人们往往念念不忘的是那份遗憾。 大二的时候,我喜欢上隔壁班的一个女生。 ...
    月海楼阅读 364评论 0 0