容器监控实践—Cortex

一.概述

cortex:一个支持多租户、水平扩展的prometheus服务。

当时调研cortex其实是因为看到了Weave Cloud这个商业产品中的监控模块介绍,weave也叫weave works,官方地址是:https://cloud.weave.works,是一个专注于容器微服务的paas平台。

WeaveCloud在监控模块最大化利用了Prometheus,并在其基础上添加了很多组件,实现了多租户管理、高可用的监控集群。其使用的核心监控组件就是cortex

本文主要分享的是cortex的运行机制,关于Weave Cloud的产品定位和功能可以看下后续的文章:商业方案-weave work

Cortex是一个CNCF的沙盒项目,目前被几个线上产品使用:Weave Cloud、GrafanaCloud和FreshTracks.io

为什么不直接运行Prometheus,而用Cortex?

ps:来自cortex kubecon大会演讲

  • 作为服务,cortex提供了鉴权和访问控制
  • 数据永久保留,状态能够被管理
  • 提供持久化、高可用、伸缩性
  • 提供更好的查询效率,尤其是长查询

二.主要功能

针对以上需求,Cortex提供的主要功能或特色如下:

  • 支持多租户:Prometheus本身没有的租户概念。这意味着,它无法对特定于租户的数据访问和资源使用配额,提供任何形式的细粒度控制。Cortex可以从多个独立的prometheus实例中获取数据,并按照租户管理。
  • 长期存储:基于远程写入机制,支持四种开箱即用的长期存储系统:AWS DynamoDB、AWS S3、Apache Cassandra和Google Cloud Bigtable。
  • 全局视图:提供所有prometheus server 整合后的时间序列数据的单一,一致的“全局”视图。
  • 高可用:提供服务实例的水平扩展、联邦集群等
  • 最大化利用了Prometheus

相似的竞品:

  • Prometheus + InfluxDB:使用InfluxData
  • Prometheus + Thanos:长期存储、全局视图
  • Timbala:多副本、全局视图,作者是Matt Bostock
  • M3DB:自动扩缩容,来自uber
产品形态

ps:来自weave work上试用监控模块时的截图

  • 1.安装监控的agent:
image
  • 2.概览视图
image
  • 3.资源监控面板
15543000496622.jpg
  • 4.监控详情页面
image
  • 5.添加监控
15543000838449.jpg
  • 6.配置报警
image
image

在k8s集群中部署所需要的yaml列表为:

https://github.com/weaveworks/cortex/tree/master/k8s

部署的agent时的脚本内容是:

#!/bin/sh
set -e
# Create a temporary file for the bootstrap binary
TMPFILE="$(mktemp -qt weave_bootstrap.XXXXXXXXXX)" || exit 1
finish(){
  # Send only when this script errors out
  # Filter out the bootstrap errors
  if [ $? -ne 111 ] && [ $? -ne 0 ]; then
    curl -s >/dev/null 2>/dev/null -H "Accept: application/json" -H "Authorization: Bearer $token" -X POST -d \
        '{"type": "onboarding_failed", "messages": {"browser": { "type": "onboarding_failed", "text": "Installation of Weave Cloud agents did not finish."}}}' \
        https://cloud.weave.works/api/notification/external/events || true
  fi
  # Arrange for the bootstrap binary to be deleted
  rm -f "$TMPFILE"
}
# Call finish function on exit
trap finish EXIT
# Parse command-line arguments
for arg in "$@"; do
    case $arg in
        --token=*)
            token=$(echo $arg | cut -d '=' -f 2)
            ;;
    esac
done
if [ -z "$token" ]; then
    echo "error: please specify the instance token with --token=<TOKEN>"
    exit 1
fi
# Notify installation has started
curl -s >/dev/null 2>/dev/null -H "Accept: application/json" -H "Authorization: Bearer $token" -X POST -d \
    '{"type": "onboarding_started", "messages": {"browser": { "type": "onboarding_started", "text": "Installation of Weave Cloud agents has started"}}}' \
    https://cloud.weave.works/api/notification/external/events || true
# Get distribution
unamestr=$(uname)
if [ "$unamestr" = 'Darwin' ]; then
    dist='darwin'
elif [ "$unamestr" = 'Linux' ]; then
    dist='linux'
else
  echo "This OS is not supported"
  exit 1
fi
# Download the bootstrap binary
echo "Downloading the Weave Cloud installer...  "
curl -Ls "https://get.weave.works/bootstrap?dist=$dist" >> "$TMPFILE"
# Make the bootstrap binary executable
chmod +x "$TMPFILE"
# Execute the bootstrap binary
"$TMPFILE" "--scheme=https" "--wc.launcher=get.weave.works" "--wc.hostname=cloud.weave.works" "--report-errors" "$@"

三.实现原理

Cortex与Prometheus的交互图:

image

原理图:

image

Cortex中各组件的作用:

  • Retrieval:采集组件,运行在用户k8s集群上,从用户应用中拉取监控指标,并把这些数据推送给云平台的服务

  • Frontend: 负载均衡/路由转发/权限认证,接受Retrieval发送来的请求,这里用的nginx

  • Distributor:分发器,把用户推送来的监控指标,按照用户id、指标名称、标签做一致性hash,然后并行交给后面的多个ingester处理(grpc交互)。是监控数据写入的第一站

  • Ingester:处理器,将监控数据保存到promtheus中,高度定制了MemorySeriesStorage模块,分块存储、写入内存并索引(使用AWS的DynamoDB产品),最后写入磁盘

  • 读写分离:ingest和query分开为两个服务

Cortex由多个可水平扩展的微服务组成。每个微服务使用最合适的技术进行水平缩放; 大多数是无状态的,而有些(即Retrieval)是半有状态的并且依赖于一致性哈希

Prometheus实例从各种目标中抓取样本,然后将它们推送到Cortex(使用Prometheus的远程写入API),并对发送的Protocol Buffers序列化数据进行Snappy压缩。

Cortex要求每个HTTP请求都带有一个header,用于指定请求的租户ID。请求身份验证和授权由外部反向代理处理。

传入的样本(来自Prometheus的写入)由Distributor处理,而传入的读取(PromQL查询)由查询前端处理。

查询缓存:

查询时会缓存存查询结果,并在后续查询中复用它们。如果缓存的结果不完整,则查询前端计算所需的子查询并在下游查询器上并行执行它们。

并发查询:

查询作业接受来自查询器的gRPC流请求,为了实现高可用性,建议您运行多个前端,且前端数量少于查询器数量。在大多数情况下,两个应该足够了。

image

本文为容器监控实践系列文章,完整内容见:container-monitor-book

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 158,425评论 4 361
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 67,058评论 1 291
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 108,186评论 0 243
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 43,848评论 0 204
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 52,249评论 3 286
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 40,554评论 1 216
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 31,830评论 2 312
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 30,536评论 0 197
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 34,239评论 1 241
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 30,505评论 2 244
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 32,004评论 1 258
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 28,346评论 2 253
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 32,999评论 3 235
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 26,060评论 0 8
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 26,821评论 0 194
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 35,574评论 2 271
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 35,480评论 2 267

推荐阅读更多精彩内容