zabbix使用自主发现(LLD)功能添加单个进程内存CPU监控

使用背景

线上有多台游戏服务器,每台游戏服务器部署多个游戏服,每个游戏服会启动两个java进程,一个game_word,一个game_db,现在要对这些所有机器上的所有游戏服进程进行内存和CPU进行监控。

我使用的zabbix版本为3.4

游戏名,目录都为临时命名

游戏进程如下
root      2314  2310  0 10:55 pts/0    00:01:28 java -server -Xms1024m -Xmx1024m -Xmn512m -XX:MetaspaceSize=128m -XX:MaxMetaspaceSize=256m -XX:MaxDirectMemorySize=512m -XX:+UseParallelGC -XX:+UseParallelOldGC -XX:+DisableExplicitGC -XX:+PrintGCDateStamps -XX:+PrintGCDetails -verbose:gc -Xloggc:/gamedata/mmk_game_s11/log4j2/gc/mmk_game_s11_DB_gc.log -XX:ErrorFile=/gamedata/mmk_game_s11/log4j2/error/mmk_game_s11_DB_error_%p.log -XX:HeapDumpPath=/gamedata/mmk_game_s11/log4j2/error/mmk_game_s11_DB_heapDump_%p.hprof -cp ./classes:./config/:./libs/* core.dbsrv.main.DBStartup 
root      2346  2342  0 10:55 pts/0    00:00:52 java -server -Xms2632m -Xmx2632m -Xmn1024m -XX:MetaspaceSize=128m -XX:MaxMetaspaceSize=256m -XX:MaxDirectMemorySize=1024m -XX:+UseParallelGC -XX:+UseParallelOldGC -XX:+DisableExplicitGC -XX:+PrintGCDateStamps -XX:+PrintGCDetails -verbose:gc -Xloggc:/gamedata/mmk_game_s11/log4j2/gc/mmk_game_s11_srvWorld0_gc.log -XX:ErrorFile=/gamedata/mmk_game_s11/log4j2/error/mmk_game_s11_srvWorld0_error_%p.log -XX:HeapDumpPath=/gamedata/mmk_game_s11/log4j2/error/mmk_game_s11_srvWorld0_heapDump_%p.hprof -Dsun.zip.disableMemoryMapping=true -javaagent:libs/classReloader.jar -cp ./classes/:./config/:./libs/:./libs/* game.seam.main.WorldStartup 0
proc.mem[<name>,<user>,<mode>,<cmdline>,<memtype>]proc.cpu.util[<name>,<user>,<type>,<cmdline>,<mode>,<zone>]

在zabbix3.4版本中有个proc.mem,proc.cpu.util有这两个key item参数,可用来对单进程的内存和cpu进行监控。

参数的相关文档如下:

Zabbix代理监控项的详细信息

image
proc.mem这个key说明

先已简单的nginx进程为例

10.163.46.81使用top查看nginx的内存信息

image

server端,使用zabbix_get测试key值命令

[root@zabbix_server ~]# zabbix_get -s 10.163.46.81 -p 10050 -k "proc.mem[nginx,root]"
112234496

文档上可以得知,proc.mem取得的默认值为VIRT的值

再次获取一次内存信息,这次获取ngixn内存RES的值

[root@zabbix_server ~]# zabbix_get -s 10.163.46.81 -p 10050 -k "proc.mem[nginx,root,,,rss]"
4304896

这样就能获取单个进程的虚拟内存,物理内存值。

由于机器上只有一个name值为nginx的进程,所以我们在使用proc.mem直接指定name值即可。

但我们实际要监控的游戏进程都为java的进程名,那要如何处理呢?

这时,就需要proc.memcmdline参数,cmdline参数可支持正则。

cmdline又是什么呢?

以刚才的java进程为例:

刚才java有个进程号为2314,打印出cmdline

[root@zabbix_agemt tmp]# cat /proc/2314/cmdline 
java-server-Xms1024m-Xmx1024m-Xmn512m-XX:MetaspaceSize=128m-XX:MaxMetaspaceSize=256m-XX:MaxDirectMemorySize=512m-XX:+UseParallelGC-XX:+UseParallelOldGC-XX:+DisableExplicitGC-XX:+PrintGCDateStamps-XX:+PrintGCDetails-verbose:gc-Xloggc:/gamedata/mmk_game_s11/log4j2/gc/mmk_game_s11_DB_gc.log-XX:ErrorFile=/gamedata/mmk_game_s11/log4j2/error/mmk_game_s11_DB_error_%p.log-XX:HeapDumpPath=/gamedata/mmk_game_s11/log4j2/error/mmk_game_s11_DB_heapDump_%p.hprof-cp./classes:./config/:./libs/*core.dbsrv.main.DBStartup

所以此处cmdline取每个服的特有值mmk_game_s11_DB

使用proc.mem打印出这个服的db的内存值

[root@zabbix_server tmp]# zabbix_get -s 10.163.46.81 -p 10050 -k "proc.mem[,root,,mmk_game_s1_srvWorld0,rss]"
608288768

这样就取到了这个游戏服单个进程的RES内存值

这是手动获取单个服的DB内存,为了后续能使用自主发现功能,我们需要写个脚本,把每台机器上的游戏服名称获取出来。

编写获取游戏服的脚本

zabbix_agent端编写,脚本直接放在zabbix/script

[root@zabbix_agent zabbix]# cat script/check_porcess.sh 
#!/bin/bash

## zabbix process
## date: 2017.11.27

process_dir=/gamedata
game_list=`ls ${process_dir}|grep game`
game_num=0
INDEX=0

for game in `echo ${game_list}`;do
        game_world_pid=`ps aux|grep java|grep ${game}|grep srvWorld0|awk '{print $2}'`
        if [ -n "${game_world_pid}" ];then
                ((game_num++))
        fi
done


echo '{"data":['

for game in `echo ${game_list}`;do
        game_world_pid=`ps aux|grep java|grep ${game}|grep srvWorld0|awk '{print $2}'`
        if [ -n "${game_world_pid}" ];then
                echo  '{"{#PROCESSNAME}":"'${game}_srvWorld0'"},'
                                INDEX=`expr $INDEX + 1`
                                if [ $INDEX -lt ${game_num} ];then
                                        echo '{"{#PROCESSNAME}":"'${game}_DB'"},'
                                else
                                        echo '{"{#PROCESSNAME}":"'${game}_DB'"}'
                                fi
        fi
done

echo ']}'

直接运行脚本,测试脚本是否正常。

[root@zabbix_agent zabbix]# sh script/check_porcess.sh 
{"data":[
{"{#PROCESSNAME}":"mmk_game_s1_srvWorld0"},
{"{#PROCESSNAME}":"mmk_game_s1_DB"},
{"{#PROCESSNAME}":"mmk_game_s99_srvWorld0"},
{"{#PROCESSNAME}":"mmk_game_s99_DB"}
]}

修改zabbix_agent修改配置文件以及添加配置文件

[root@zabbix_agent zabbix]# cat etc/zabbix_agentd.conf|grep -v ^#|grep -v ^$ 
LogFile=/tmp/zabbix_agentd.log
Server=10.163.254.250
ServerActive=10.163.254.250
Hostname=zabbix_agent
Include=/usr/local/zabbix/etc/zabbix_agentd.conf.d
UnsafeUserParameters=1

其中修改的内容就是添加最后两行信息

Include=/usr/local/zabbix/etc/zabbix_agentd.conf.d
UnsafeUserParameters=1

然后在zabbix_agentd.conf.d添加一个新的配置文件信息

[root@zabbix_agent zabbix]# cat etc/zabbix_agentd.conf.d/java_process.conf 
UserParameter=gameprocess,/usr/local/zabbix/script/check_porcess.sh

server端测试keygameprocess是否正常

[root@zabbix_server ~]# zabbix_get -s 10.163.46.81 -p 10050 -k "gameprocess"               
{"data":[
{"{#PROCESSNAME}":"mmk_game_s1_srvWorld0"},
{"{#PROCESSNAME}":"mmk_game_s1_DB"},
{"{#PROCESSNAME}":"mmk_game_s99_srvWorld0"},
{"{#PROCESSNAME}":"mmk_game_s99_DB"}
]}

脚本内容到此完成,下面开始模板创建。

创建新的模板,添加自主发现内容

创建模板
image

关联Template OS Linux模板

image
image
在模板中添加discovery

此处一定要在模板中创建,而不是最顶端的那个discovery

image

添加一个discovery rule

image
image
在模板中添加Item prototypes

创建三个Item prototypes,两个内存的,一个CPU的

image
image
image
在模板中添加Graph prototypes
image
image

至此模板已创建完成。

开始创建网络发现服务,让主机自动关联刚刚创建的模板001_process_template

image

添加action

image
image

最后可以看图形显示了

image

推荐阅读更多精彩内容