TDengine+Telegraf+Grafana搭建监控平台

文章作者:易明
简书主页:https://www.jianshu.com/u/6ebea55f5cec
邮箱地址:1129079384@qq.com

本文为富文本格式,排版较差,为了更好的浏览效果,我已将本文编辑为Markdown格式,您可前往此处阅读:https://www.jianshu.com/p/daf80042433e

简介:

      TDengine是一个高效的存储、查询、分析时序大数据的平台,专为物联网、车联网、工业互联网、运维监测等优化而设计。而作为服务于一家车联网公司且有着钻研精神的大数据工程师,自然会摸索一番。

       在安装好TDengine后,根据官方给出的TDengine+Telegraf+Grafana组合,搭建监控平台。

Telegraf--数据采集

TDengine--数据存储

Grafana--数据展示

利用官方博客给出的c程序向TDengine插入数据,并通过监控平台观测CPU、内存和磁盘利用率如下图:

注意事项: 

TDengine官方文档显示: 

目前,TDengine只支持在使用systemd做进程服务管理的linux系统上安装。其他linux系统的支持正在开发中。用which命令来检测系统中是否存在systemd。 

因此,Linux系统需要是Centos7和Ubuntu16.04及以上系统。 

Linux环境:

1、系统:Centos7.2

2、内存:8G

3、磁盘:1T

4、CPU:Intel(R) Pentium(R) CPU G3250 @ 3.20GHz

5、核数:2核

TDengine部署:

1、从官网https://www.taosdata.com/cn/getting-started/下载RPM包(tdengine-1.6.0.0-3.el7.x86_64.rpm)

2、安装:rpm -ivh tdengine-1.6.0.0-3.el7.x86_64.rpm

3、启动taos:systemctl start taosd

4、输入taos,进入数据库

Telegraf部署:

       Telegraf 是收集和报告指标和数据的代理。Telegraf是TICK Stack的一部分,是一个插件驱动的服务器代理,用于收集和报告指标。

1、进入官网https://portal.influxdata.com/downloads/下载

2、选择对应版本安装

wget https://dl.influxdata.com/telegraf/releases/telegraf-1.11.3-1.x86_64.rpm

sudo yum localinstall telegraf-1.11.3-1.x86_64.rpm

3、配置Telegraf,进入/etc/telegraf/telegraf.conf

在[agent]部分修改配置项:

hostname: 区分不同采集设备的机器名称,需确保其唯一性

metric_batch_size: 30,允许Telegraf每批次写入记录最大数量,增大其数量可以降低Telegraf的请求发送频率,但对于TDengine,该数值不能超过50

在[[outputs.http]]修改配置项:

url:http://ip:6020/telegraf/udb,其中ip为TDengine集群的中任意一台服务器的IP地址,6020为TDengine RESTful接口的端口号,telegraf为固定关键字,udb为用于存储采集数据的数据库名称,可预先创建(一般默认生成)

method: "POST"

username: 登录TDengine的用户名,默认为root

password: 登录TDengine的密码,默认为taosdata

data_format: "json"

json_timestamp_units: "1ms" 注意这一行不能直接复制粘贴,里面“:”要改成“=”

4、启动Telegraf 

systemctl start telegraf

5、进入taos数据库,查看生成的库和表

show databases; --显示数据库

use udb;--使用数据库

show stables;--显示超级表

show tables;--显示普通表

Grafana部署:

Grafana是一个跨平台的开源的度量分析和可视化工具,可以通过将采集的数据查询然后可视化的展示,并及时通知。

1、进入官网https://grafana.com/grafana/download下载并安装:

wget https://dl.grafana.com/oss/release/grafana-6.2.5-1.x86_64.rpm 

sudo yum localinstall grafana-6.2.5-1.x86_64.rpm 

2、TDengine的Grafana插件在安装包的/usr/local/taos/connector/grafana目录下。

以CentOS 7.2系统为例,将tdengine目录拷贝到/var/lib/grafana/plugins目录下

scp -r /usr/local/taos/connector/grafana/tdengine/ /var/lib/grafana/plugins

3、启动Grafana

systemctl start grafana-server

4、在浏览器中通过host:3000登录Grafana服务器(用户名/密码:admin/admin)

5、添加数据源为TDengine

用户名/密码为连接TDengine的root/taosdata,而不是Grafana的admin/admin。

6、创建dashboard实现数据可视化

注意事项

最近有朋友执行我文档中的SQL语句,发现显示no data,原因是新版的TDengine改变了各个参数在数据库中的名称,请大家对照taos数据库中的表名编写SQL语句。

以上分为7个步骤,分别用1-7标明:

1、点击Queries图标

2、选择Query中的TDengine

3、在INPUT SQL中填入需要显示的指标,以上为CPU利用率

select avg(f_usage_user) from udb.cpu WHERE ts>=$from and ts<$to interval($interval)

4、为Panel形取一个别名:CPU

5、点击GENERATE SQL,生成图形

6、选择需要展示的时间段,如Last 5 minutes

7、选择图形刷新的频率,如5s

7、配置Visualization参数

8、设置General参数

点击General,为Panel修改名称为:CPU利用率

9、配置Settings

10、保存后得到下图

11、进入Grafana官网https://grafana.com/grafana/plugins?type=panel还可以安装一些插件,如时钟等

grafana-cli plugins install grafana-clock-panel

systemctl restart grafana-server

重启Grafana后,刷新dashboard便会出现Clock

12、其他监控指标如下:

磁盘利用率

select avg(f_used_percent) from udb.disk WHERE ts>=$from and ts<$to interval($interval);

总内存

select avg(f_total) from udb.mem WHERE ts>=$from and ts<$to interval($interval);

内存利用率

select avg(f_used_percent) from udb.mem WHERE ts>=$from and ts<$to interval($interval);

可用内存

select avg(f_available) from udb.mem WHERE ts>=$from and ts<$to interval($interval);

总结:

        基于TDengine+Telegraf+Grafana的简易监控平台搭建完成,感兴趣的朋友可以监控更多指标并加上报警功能等。TDengine自开源以来便引起了巨大反响,使用过一段时间后,不得不说,TDengine的诞生确实为物联网数据的存储分析带来了便利,我有以下几个心得:

1、从部署来讲,即使搭建过很多次Hadoop架构,我还是得仔细配置调参测试,至少得折腾一两天,TDengine单机版部署确实是秒级,集群版部署流程不太清楚。

2、从存储来讲,我用的是snappy算法,官方给出的压缩率是remaining 20%,在测试的时候感觉并没有这么多,我们磁盘总共60T,3月开始到现在用了差不多10T了。TDengine的压缩率是10%。

3、从数据分析来讲,我们读取Hbase数据,快的方法是Spark,我们的行健是车辆ID和时间戳的组合,相邻时间的数据可能分散在各个region上,在不同的机器上,通过RPC连接,查询时也比较慢。而TDengine设计时一辆车对应一张表,连续的数据在一个block上,查询非常快,我用python连接单机版taos数据库,读取和分析整个超级表也是秒级的,集群版没有测试过。

4、从运维上来讲,我安装的每个组件是分开部署,不像Ambari那种集成了所有组件的,集群出问题了就要一点点排查,不过好在Hadoop架构相对比较成熟了,网上应该总能找到解决办法。而TDengine就是把所有东西都封装在一个小小的包里面,运维应该会相对轻松。

        以上言论均为一家之言,最后,希望能尽快感受到集群版的魅力,也祝愿TDengine蓬勃发展。

推荐阅读更多精彩内容