Prometheus迷雾 - 无法获取Pod的label

问题背景

Prometheus在抓取container的CPU/Mem等metric的时候，发现metric上没有带Pod的label，这导致一个问题，无法通过自定义的label查看其下的所有metric资源。
例如下面的一个a-custom-project, 带了一个project: a-custom-project label

apiVersion: v1
kind: Pod
metadata:
  labels:
    project: a-custom-project 
  name: a-custom-project 
spec:
  containers:
    image: nginx
    imagePullPolicy: Always

希望project: a-custom-project label过滤出其下的所有metic指标，下面是一个container_cpu_usage_seconds_total的metric

正常情况下是不会出现红色框中的label，因此在grafana上也无法通过下面的方式显示

问题分析

导致此问题的出现主要的原因是kubelet在调用kubeGenericRuntimeManager创建container的时候，过滤掉所有的自定义的label，只添加了固定的几个指标。

kubernetes/pkg/kubelet/kuberuntime/labels.go

// newContainerLabels creates container labels from v1.Container and v1.Pod.
func newContainerLabels(container *v1.Container, pod *v1.Pod) map[string]string {
  labels := map[string]string{}
  labels[types.KubernetesPodNameLabel] = pod.Name
  labels[types.KubernetesPodNamespaceLabel] = pod.Namespace
  labels[types.KubernetesPodUIDLabel] = string(pod.UID)
  labels[types.KubernetesContainerNameLabel] = container.Name

  return labels
}

并且kubelet会过滤容器上的label标签，只保留规定的KubernetesPodNameLabel / KubernetesPodNameSpaceLabel / KubernetesContainerNameLabel 等label

kubernetes/pkg/kubelet/server/server.go

func containerPrometheusLabelsFunc(s stats.Provider) metrics.ContainerLabelsFunc {
  // containerPrometheusLabels maps cAdvisor labels to prometheus labels.
  return func(c *cadvisorapi.ContainerInfo) map[string]string {
    // Prometheus requires that all metrics in the same family have the same labels,
    // so we arrange to supply blank strings for missing labels
    var name, image, podName, namespace, containerName string
    if len(c.Aliases) > 0 {
      name = c.Aliases[0]
    }
    image = c.Spec.Image
    if v, ok := c.Spec.Labels[kubelettypes.KubernetesPodNameLabel]; ok {
      podName = v
    }
    if v, ok := c.Spec.Labels[kubelettypes.KubernetesPodNamespaceLabel]; ok {
      namespace = v
    }
    if v, ok := c.Spec.Labels[kubelettypes.KubernetesContainerNameLabel]; ok {
      containerName = v
    }

    // Associate pod cgroup with pod so we have an accurate accounting of sandbox
    if podName == "" && namespace == "" {
      if pod, found := s.GetPodByCgroupfs(c.Name); found {
        podName = pod.Name
        namespace = pod.Namespace
      }
    }
    set := map[string]string{
      metrics.LabelID:    c.Name,
      metrics.LabelName:  name,
      metrics.LabelImage: image,
      "pod":              podName,
      "namespace":        namespace,
      "container":        containerName,
    }
    return set
  }
}

此问题从2015年，k8s 1.1版本起就在社区开始有反馈，期间也不断有人issues，但是一直没有解决，社区主要考虑的有2点:
1）abel是一个很易变的数据，变化后会导致图标不连续（详见：https://www.robustperception.io/how-to-have-labels-for-machine-roles）

2）过多的label会导致prometheus存储压力的增加，每个label都会创建一个timeseries，(详见：https://github.com/kubernetes/kubernetes/issues/79702)

image

references：https://github.com/kubernetes/kubernetes/issues/32326

影响范围

目前只影响cadvisor上指标，所有的container_*指标都存在此问题，例如fs / cpu / mem / net 等等容器指标。

解决方案一：联表聚合（社区方案）

社区的思想是减少容器的label，这块大大减轻prometheus的存储压力，并且认为label应该是恒定，在整个业务的生命周期中应该固定的，并且认为label是个易变，很容易导致业务的图标出现中断:

references:

基于上面这个思想，社区提供一个联表聚合的方案，这个方案也是社区提供的唯一方案（详见：https://www.weave.works/blog/aggregating-pod-resource-cpu-memory-usage-arbitrary-labels-prometheus/）

大概的解决思路是：kube_state_metrics exporter提供一个kube_pod_labels的metric，这个metric里面有pod自定义的pod labels，然后和没有自定义label的metric进行联表聚合查询，从而实现了通过自定义label来过滤没有自定义label的metric的能力，由于是联表聚合查询，因此此能力是运行时的。

sum(irate(container_cpu_usage_seconds_total{image!=""}[1m])) by (namespace,pod)
    * on (namespace, pod) group_left(label_yfd_service)
kube_pod_labels{label_yfd_service="tutor-live-subjective-question"}

缓解方案

1）通过sharding方式，但是此方式无法按时间段存储在不同的prometheus，因此这种方式对单个merric来说是无效的。在metric固定的情况下，增加prometheus是可以起到一些缓解作用
2）通过recording rule方式，此方式通过将聚合查询的结果记录为一张新表，可以实现和原生label相同的查询速度，但是此方式对计算和存储的资源消耗很大，但是也可以通过增加prometheus来缓解。

解决方案二：修改kubelet源码方案

在社区有人提出通过白名单的给cadvisor添加label，但是社区没有下文（详见：https://github.com/google/cadvisor/issues/2380）。在社区搜了一下有很多人都在提这个问题，最近还有一个人提了PR，但是被拒绝了（详见：https://github.com/kubernetes/kubernetes/pull/95210）。

Demo实现：直接通过硬编码 project 关键字 label，检查此 label 并将其传递到container 的 label 上。kubelet 暴露给 prometheus 的接口处也添加了一个检查，会将此 label 加入到返回的 set 集中，从而实现 promethues 能获取到pod 的 label。

更优方案：通过设置一个白名单列表，通过命令参数传入，这样既可以避免过多的 label 影响prometheus的存储，也可以实现灵活的 label 配置。

kubernetes/pkg/kubelet/kuberuntime/labels.go

// newContainerLabels creates container labels from v1.Container and v1.Pod.
func newContainerLabels(container *v1.Container, pod *v1.Pod) map[string]string {
  labels := map[string]string{}
  labels[types.KubernetesPodNameLabel] = pod.Name
  labels[types.KubernetesPodNamespaceLabel] = pod.Namespace
  labels[types.KubernetesPodUIDLabel] = string(pod.UID)
  labels[types.KubernetesContainerNameLabel] = container.Name
  
  // patch by zhaixigui

  for labelName ,_ := range pod.ObjectMeta.GetLabels() {
    if labelName == "project" {
      labels[labelName] = pod.ObjectMeta.Labels[labelName]
    }
  }

  return labels

kubernetes/pkg/kubelet/server/server.go

func containerPrometheusLabelsFunc(s stats.Provider) metrics.ContainerLabelsFunc {
  // containerPrometheusLabels maps cAdvisor labels to prometheus labels.
  return func(c *cadvisorapi.ContainerInfo) map[string]string {
    // Prometheus requires that all metrics in the same family have the same labels,
    // so we arrange to supply blank strings for missing labels
    var name, image, podName, namespace, containerName string
    if len(c.Aliases) > 0 {
      name = c.Aliases[0]
    }
    image = c.Spec.Image
    if v, ok := c.Spec.Labels[kubelettypes.KubernetesPodNameLabel]; ok {
      podName = v
    }
    if v, ok := c.Spec.Labels[kubelettypes.KubernetesPodNamespaceLabel]; ok {
      namespace = v
    }
    if v, ok := c.Spec.Labels[kubelettypes.KubernetesContainerNameLabel]; ok {
      containerName = v
    }

    // Associate pod cgroup with pod so we have an accurate accounting of sandbox
    if podName == "" && namespace == "" {
      if pod, found := s.GetPodByCgroupfs(c.Name); found {
        podName = pod.Name
        namespace = pod.Namespace
      }
    }
    set := map[string]string{
      metrics.LabelID:    c.Name,
      metrics.LabelName:  name,
      metrics.LabelImage: image,
      "pod":              podName,
      "namespace":        namespace,
      "container":        containerName,
    }

    // patch by xigui

    for labelName,labelValue := range c.Spec.Labels {
      if labelName == "project" {
        set[labelName] = labelValue
      }
    }

    return set
  }
}

解决方案三：阿里云 - 大数据

阿里云将 Promsql 查询时间小于2秒的用社区的 kube_pod_label 联表聚合的方案，而大于2秒的查询用大数据平台处理（类似Hbase），有大数据平台保证查询的响应时间。

解决方案四：独立安装cAdvisor

社区有 member 想将 cAdvisor 独立出来，为了解决 kubelet 的性能问题，但是最后也不了了之。（详解：https://github.com/kubernetes/kubernetes/issues/18770）。

另外有一个人将 cAdvisor 的部分统计信息放到了CRI里，试图将 kubelet 和 cadvisor 分离，但是此PR并不是解决 Pod 的 label 传递到 container 上的问题（详见：https://github.com/kubernetes/kubernetes/pull/45614），此方案没有最终的实现。

性能测试

prometheus查询container_cpu_usage_seconds_total metric，实例数5个，最大查询时间2天

1）联表查询（单位：毫秒）

sum(irate(container_cpu_usage_seconds_total{image!=""}[1m])) by (namespace,pod)
    * on (namespace, pod) group_left(label_yfd_service)
kube_pod_labels{label_yfd_service="tutor-live-subjective-question"}

2d: 1273, 1312, 1277, 1258, 1320
1h: 311, 396, 367, 365, 2882）原生查询（单位：毫秒）

2）原生查询

sum(irate(container_cpu_usage_seconds_total{image!="", yfd_service="tutor-live-subjective-question"}[1m])) by (namespace,pod)

2d: 71, 73, 78, 76, 85
1h: 39, 43, 45, 50, 40

对比：通过直接过滤label和kube_pod_labels连表查询的返回响应

2d: 平均相差1212毫秒，相差16倍
1h：平均相差302毫秒，相差7倍

方案对比

	修改源码	联表聚合	大数据
优点	简单，性能高	简单，符合社区方向	在不改源码的情况，解决了「联表聚合」性能问题
缺点	修改了kubelet源码	响应时间很慢，数据量大了很难处理	需要一个大数据平台，对维护和成本来说都是巨大的挑战
响应时间	快	很慢	中
架构复杂性	简单	简单	非常复杂
开发成本	低	无	高
资源要求	低	低	高
符合社区方向	不符合	符合	-
稳定性	高	高	低

其他公司的实践

公司	规模	选用方案	说明
快手	超大	放弃prometheus	经过几次修改prometheus源码后均不能解决其大数据量的问题
瓜子	小	联表聚合	规模较小，提升性能用rule
马蜂窝	小	联表聚合	规模小，对基于自定义的label查询需求不大

对kubernetes云原生方面的故障排查、解决方案、优化调优感兴趣的朋友可以关注喜贵的云原生