Linux上Java闪退问题定位

现象

java服务,运行1-2天闪退。闪退问题通常比较难查,因为日志不全,所以记录一下本次问题原因定位。

定位问题过程

1 先看应用日志

一般闪退都不会记录(应用来不及写),但是可以碰碰运气看看最后在执行什么。

2 本地排查java内存泄漏

  • 安装Jprofile
  • 选择IDEA-->Perferences-->Plugins打开安装JProfile插件的界面
  • 下载最新JProfile压缩包
  • 本地运行java程序
  • 在Jprofiler选择你要profile的进程


    image.png
  • 选择live memory--> mark current --> 执行疑似内存泄漏的操作-->点击GC
    如果有对象不能被GC,则疑似发生了内存泄漏


    image.png
  • 进一步分析泄漏的原因,右键选中,查看heap
    选择不进行GC查看前面新增的对象(勾选了GC选项后会再进行一次GC,前面GC过了就不用了。)
    ** 补充:内存泄漏一般看堆,栈一般存运行时数据 **


    image.png
  • 查看引用(references),show path to gc root,能看到对象的引用路径


    image.png
  • 这里可以先合并统计,找到最多的对象再挨个定位,要一个个查,找到问题所在。

问题到这里查到了一些微小的内存泄漏,但是感觉不至于服务1-2天闪退。查到了某写操作占用大量内存,但是可以被GC回收。需要进一步定位。

3 服务器查看系统日志

  • 系统日志一般存放在/var/log中

  • 不同的系统日志有不同的含义

    • /var/log/cron 工作调度
    • /var/log/dmesg 内核检测过程中产生的信息
    • /var/log/lastlog 检测所有账号登陆信息
    • /var/log/maillog或/var/log/mail/* 邮件
    • /var/log/messages 记录系统发生的所有错误信息
    • /var/log/secure 涉及账号密码信息
    • /var/log/wtmp,/var/log/faillog 记录正确登陆系统与错误登陆系统者的账号信息
    • /var/log/httpd/,/var/log/news/,/var/log/samba/* 不同网络服务的信息记录处
    • /var/log/syslog (本人用的腾讯云的系统日志)**
  • 先从应用日志中定位到闪退的时间(从某个时间点开始没有日志了)

  • 然后搜索一下 /var/log/syslog

  • 在闪退时间附近看下是否有异常,发现有oom-killer


    image.png
  • Out of memory killer 在可用内存极低的情况下会杀死某些进程。只要达到触发条件就会激活, 选中某个进程并杀掉。 通常采用启发式算法, 对所有进程计算评分(heuristics scoring), 得分最低的进程将被 kill 掉。它既不由JVM触发,也不由JVM代理, 而是系统内核内置的一种安全保护措施。

  • 然后结合第二步,发现有一些操作会让内存暴涨(缓存了较多数据来追求性能优化),虽然可以被GC,但是导致服务器内存过低。解决方式就是内存扩容一下,或者优化应用使用的内存。

4 查问题过程中,其他辅助分析的工具

  • 先从free命令理解下linux内存。free -h
image.png
  • total总内存=used已使用+free空闲。
  • buffers:用来存储目录里面有什么内容。 比如执行了ls /etc之后 buffers增长了146980
  • cached:用来记忆我们打开的文件。 比如新建一个文件 cached增长了258804
  • swap:应用所需内存超过物理内存时,就会发生页面切换,通常要为系统配置swap空间。 他在一个独立磁盘分区上,物理内存耗尽后,会将应用最少运行的部分置换到swap空间里(活跃的不置换),如果要访问swap空间的部分,就必须将他置换进内存,对应用造成响应和吞吐量影响。 JVM垃圾回收在页面交换时性能很差,为了回收不可达对象所占用空间,需要访问大量内存,如果堆的一部分被置换出去了,就必须先置换进内存以便垃圾回收器扫描存活对象,增加垃圾收集的持续的时间,并且又stop the world,引起长时间停顿。
  • -buffers/cache 的意思: 等于used-buffers-cached。 从OS系统的角度来看,buffers/cached 都是属于系统使用的,应用使用的要减掉他们,反应的是被程序实实在在吃掉的内存。
  • +buffers/cache 的意思: 等于free + buffers + cached 从应用的角度来看,buffer/cached只是系统为了提高文件读取的性能而设置的,当自己应用需要用到这块的空间时,系统可以把它们回收掉,给应用程序使用,所以他们是应用可以使用的内存总数。
  • shared: 据说是进程间共享内存,了解不多,因为这个参数出现的问题没有过。
  • 下面用工具vmstat查问题,通常从下面两个方面看


    image.png
  • 内存不够用
  • swpd:使用的虚拟内存大小。
  • free:空闲的物理内存大小。
  • buff:用作缓冲的内存大小。
  • cache:用作缓存的内存大小。
  • si:每秒从交换区写到内存的大小,由磁盘调入内存。
  • so:每秒写入交换区的内存大小,由内存调入磁盘。

如果swpd,so,si比较高,说明内存资源不足,已经占用交换区资源。需要增加内存。

推荐阅读更多精彩内容