监控系统入门

本文主要科普一些监控系统相关入门知识。

时序数据

基础概念

监控的定义

监控是收集和分析数据以确定业务应用程序的性能,运行状况和可用性及其依赖的资源的行为。 有效的监控策略可帮助用户了解应用程序组件的详细进程,还可以通过主动通知关键问题来避免错误发生,以便在问题发生之前解决问题。

监控的核心价值

下面简单梳理一下监控系统的核心价值:

  • 实时的数据查看
  • 历史状态回顾
  • 资源使用数据报表订阅
  • 异常告警

时间序列

监控面向的对象是时间序列的数据,那么时间序列的数据有什么样的特征呢?

  1. 严格按时间顺序进行排序的一组随机变量
  2. 每个变量都包含有时间戳及值
  3. 常见的时间序列,包括服务器cpu利用率、服务请求速率等
  4. 非常有用,能够反映服务的当前状态、在合理分析后能够对未来的趋势进行预测
时间序列

时间序列数据库

大数据时代,各种软硬件设备联网,需要连续监控,将会产生大量的时间序列的数据,针对这一类的数据如何针对性地进行存储和聚合查询呢?作为这一类数据存储的基础设施的时间序列数据库诞生了。

时间序列数据库是一种针对时间序列特点进行优化,专用于处理时间序列数据的软件系统。 从2000年左右出现,在2014年被DB-Engine列为独立的数据类型进行排名。 典型实现:InfluxDB\OpenTSDB\TimescaleDB\Prometheus等。

从下图我们可以看到,自2018年以来,时间序列数据库的受欢迎程度突飞猛进,这也是当前大数据时代发展的必然要求。


JUN-2019-Categories-1.png

下图是来自DB-Engine关于当前流行的时间序列数据库的排名,比较值得我们重点关注的是InfluxDB\OpenTSDB\Prometheus,后续我也会写专门的文章介绍这三个时间序列数据库。


JUN-2019-Matrix2.png

监控系统的分类

根据Peter Bourgon.2017年分布式追踪峰会上提出的Metrics, Tracing 和 Logging 的关系,他将业界所有监控系统划分为如下三类:

image.png

  1. Logging:即日志监控 。
    记录系统发生的离散事件。如:
  • 用户的某次特殊操作
  • 实例异常离线
  1. Metrics:即指标监控 。
    反映系统状态的聚合型数据,从形式上来看,指标为时间序列。如:
  • cpu利用率
  • 磁盘读速率
  1. Tracing:即分布式追踪。
    请求处理链相关的监控数据,也是离散型。
  • 每个请求的处理状态
  • 哪些节点在处理特定请求时失败
  • 哪些节点在处理特定请求时响应慢

宏观上看,指标监控的内容主要包括的内容如下:

  • 主机状态监控:监控计算机的 CPU、内存状态等
  • 应用状态监控:监控系统中的应用程序的状态,如资源占用情况、失败重启情况等
  • 网络与连接监控:监控网络的带宽使用情况、延迟与丢包情况等
  • 集群状态监控:监控集群中节点的生命周期、节点的选举情况等
  • 外部依赖监控:监控外部依赖的可用性等

指标监控系统的两类实现模型

指标Metrics类别的监控系统有两大类典型的实现模型,分别是推模型和拉模型。

拉模型
  • 服务端感知客户端并决定从哪些客户端拉取数据
  • 服务端决定数据采集频率
  • 服务端和客户端必须保证在同一网络平面里
拉模型
推模型
  • 服务端不感知客户端,客户端主动感知服务端
  • 客户端决定数据的采集频率
  • 服务端和客户端可以不在同一网络平面里,如客户端在
    NAT设备之后
推模型

监控系统一般架构

监控系统的话题很大,随着业务的复杂,也会衍生出各种各样不同的形态。但总体上绕不开三个部分:

  • 采集
  • 存储
  • 报警

更加细节一点,监控系统所要回答的基本问题包括:

  • 监控数据由谁采集?怎么采集?怎么上报?
  • 监控数据如何处理?例如,怎么做固定阈值的报警判断?动态阈值的报警判断?未来扩容需求的预测?
  • 监控数据是如何被存储的?
  • 监控数据是如何聚合和展示的?

因此,在设计一般的监控系统时,会包括如下的组件:

  • 采集: 获取来自包括操作系统,传感器、队列、数据库和网络等任何地方的一切数据,包括metrics, events, logs还是traces,并且将他们存储在一个高性能的、每秒能够处理上百万条数据服务器上。
  • 处理: 对数据进行高效地分析、聚合、处理,包括机器学习。
  • 动作: 实现自动化。只需单击即可设置警报或根据机器学习算法执行复杂的异常检测。发送警报给Slack,SMS和PagerDuty等热门服务。创建自定义触发器以执行任何操作。
监控系统架构

参考资料

  1. An Introduction to Metrics, Monitoring, and Alerting
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 158,736评论 4 362
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 67,167评论 1 291
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 108,442评论 0 243
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 43,902评论 0 204
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 52,302评论 3 287
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 40,573评论 1 216
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 31,847评论 2 312
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 30,562评论 0 197
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 34,260评论 1 241
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 30,531评论 2 245
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 32,021评论 1 258
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 28,367评论 2 253
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 33,016评论 3 235
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 26,068评论 0 8
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 26,827评论 0 194
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 35,610评论 2 274
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 35,514评论 2 269