给 TiKV 开发 Grafana 的 datasource

24字数 1189阅读 922

对于 TiKV 来说,我们使用的是 Prometheus 来收集系统所有的 metrics,在加上 Grafana,几乎已经成为了业界的一个标准的解决方案。但是,Prometheus 是一个时序数据库,它的数据类型的值也是浮点类型,所以有时候,我们并不能很好的去展示一些更复杂的统计信息。

譬如下图的 PD 面板的统计,上面详细的列出来当前集群有多少台 TiKV,以及异常的 TiKV 的个数,但仅仅只能限于此了,如果这时候,我想知道 Tomestone 的 TiKV 具体是那几台机器,就很难做到了。

一个可选的做法就是使用 Prometheus 的 label,譬如对于 PD 的配置来说,我们也需要在 Grafana 上面展示,现在就是用了一个 Gauge,添加了一个 type 的 label,这样配置的 field 就放到这个 type 里面,而配置的值就是 Gauge 的值。大概如下:

虽然能看到当前集群的一些配置了,但如果这个配置是 string 或者 list 等类型,仍然是没法展示的。另外,如果用 label,可能造成 label 值太多,metrics 膨胀,Prometheus 撑不住的情况。

当然,我们可以通过另外的方式得到这些信息,譬如现在我们就可以直接通过 HTTP 或者相关的 control 工具直接从 PD 或者 TiKV 里面得到,只不过,多数时候,在用户那边,我们是没法直接操作这些命令的。通常,用户只会给我们开放 Grafana 面板,所以,如果我们能在 Grafana 展示更加丰富的信息,就更利于我们后面排查问题。

对于上面我提到的那种情况,多数时候,我们其实希望的是用 table 来进行展示,譬如:

Instance State
172.16.1.3 Up
172.16.1.4 Tombstone

幸运的是,Grafana 也提供了 table 的支持,也能支持 string 这样的数据展示,所以我们要做的就很简单了。为 TiKV 在 Grafana 里面专门写一个 datasource,能返回 Table 的数据格式,这样就能在 Grafana 里面展示了。

Datasource

Grafana 提供了一个非常简单的例子,开发一个 JSON datasource - https://github.com/grafana/simple-json-datasource,在这个例子里面,我们只要给这个 datasource 写一个特定的 server,返回 Table 格式的数据,就 ok 了。

Simple JSON datasource 这个例子里面已经提供了几个 server 实现,因为我对 Go 很熟悉,自然选择了 https://github.com/smcquay/jsonds,但这个实现其实并不支持返回 Table,不过也是很简单的。

jsonds

首先,我们知道 Table 的请求格式为:

{
  "panelId": 1,
  "range": {
    "from": "2016-10-31T06:33:44.866Z",
    "to": "2016-10-31T12:33:44.866Z",
    "raw": {
      "from": "now-6h",
      "to": "now"
    }
  },
  "rangeRaw": {
    "from": "now-6h",
    "to": "now"
  },
  "interval": "30s",
  "intervalMs": 30000,
  "targets": [
     { "target": "upper_50", "refId": "A", "type": "table" },
     { "target": "upper_75", "refId": "B", "type": "table" }
  ],
  "adhocFilters": [{
    "key": "City",
    "operator": "=",
    "value": "Berlin"
  }],
  "format": "json",
  "maxDataPoints": 550
}

返回格式为:

[
  {
    "columns":[
      {"text":"Time","type":"time"},
      {"text":"Country","type":"string"},
      {"text":"Number","type":"number"}
    ],
    "rows":[
      [1234567,"SE",123],
      [1234567,"DE",231],
      [1234567,"US",321]
    ],
    "type":"table"
  }
]

这些都是放在 HTTP body 里面了,我们很自然的能在 Go 里面定义好对应的 struct 来进行编解码处理:

type QueryRequest struct {
    PanelID       int                 `json:"panelId"`
    Range         Range               `json:"range"`
    RangeRaw      RangeRaw            `json:"rangeRaw"`
    Interval      string              `json:"interval"`
    IntervalMS    int                 `json:"intervalMs"`
    Targets       []Target            `json:"targets"`
    Format        string              `json:"json"`
    AdHocFilters  []map[string]string `json:"adhocFilters"`
    MaxDataPoints int                 `json:"maxDataPoints"`
}

type Column struct {
    Text string `json:"text"`
    Type string `json:"type"`
}

type TableResponse struct {
    Columns []Column        `json:"columns"`
    Rows    [][]interface{} `json:"rows"`
    Type    string          `json:"type"`
}

注意,因为有些 struct 过于简单,这里并没有写上去。然后我们增加个处理 /query 请求的 handler,如下:

func (s *server) query(w http.ResponseWriter, r *http.Request) {
    log.Printf("%v: %v", r.URL.Path, r.Method)
    switch r.Method {
    case http.MethodOptions:
    case http.MethodPost:
        req := QueryRequest{}
        if err := json.NewDecoder(r.Body).Decode(&req); err != nil {
            http.Error(w, fmt.Sprintf("json decode failure: %v", err), http.StatusBadRequest)
            return
        }
        resp := TableResponse{
            Columns: []Column{
                {Text: "ID", Type: "number"},
                {Text: "Addr", Type: "string"},
                {Text: "State", Type: "string"},
                {Text: "Leader", Type: "number"},
                {Text: "Region", Type: "number"},
            },
            Rows: [][]interface{}{
                {1, "127.0.0.1:20161", "Up", 1, 1},
                {2, "127.0.0.1:20162", "Up", 0, 1},
                {3, "127.0.0.1:20163", "Up", 0, 1},
            },
            Type: "table",
        }

        if err := json.NewEncoder(w).Encode([]TableResponse{resp}); err != nil {
            log.Printf("json enc: %+v", err)
        }
    default:
        http.Error(w, "bad method; supported OPTIONS, POST", http.StatusBadRequest)
        return
    }
}

代码几乎就是按照 jsonds 其他代码 copy 的,这里,我们返回了一个 Table,存储的是 TiKV 集群的信息,然后编译启动。

Demo

然后我们打开 Grafana,按照提示安装好 JSON datasource,创建一个 Table 的 panel,在 Options 那边需要选择 Table。

另外,为了显示更友好,可以在 Column Styles 里面将 Decimals 那一栏设置为 0。

然后我们就能看到整个效果了,如下:

总结

可以看到,通过自己构造 datasource,我们能在 Grafana 里面展示更复杂的数据了。上面的 demo 只是一个简单的例子,我们完全可以让 datasource 直接通过 HTTP 跟 PD,TiKV 进行交互,得到相关的数据进行展示。而对于 TiDB,虽然也支持 HTTP,但我更希望的是能通过 SQL 直接进行交互,幸运的是,Grafana 早就支持了 MySQL 的 datasource,有空就后面研究吧。

说了这么多,提最重要的吧,我虽然喜欢折腾,但也仅仅是这样了,对前端还是一窍不通的,所以,这里非常期待前端工程师的加入。我们不光会在 Grafana 上折腾,同时也会开发自己的 Web 产品,如果你在这方面有丰富的经验,欢迎联系我 tl@pingcap.com

推荐阅读更多精彩内容