Zipkin介绍和使用

zipkin介绍

Zipkin是一个分布式链路跟踪系统,可以采集时序数据来协助定位延迟等相关问题。数据可以存储在cassandra,MySQL,ES,mem中。分布式链路跟踪是个老话题,国内也有类似的框架,比如阿里的skywalking。 zipkin目前和SpringCloud生态结合紧密,有相关的支持。

zipkin原理

架构

主要包括客户端和一个管理服务端。在客户端采集数据后,发送给服务端,用来展示数据。在每个instrumented的客户端,写入了traceId,然后统一收集数据在服务端存储。这里instrumented翻译过来是仪器化,设备化,为了简单我把他称作标识实体,代表一个接入了zipkin的客户端。

zipkin架构图

原理

结构和概念

zipkin包括四个组件,collector,storage,search,webUI。其中collector中重点有两个

  • Span 表示一个追踪节点,有唯一标识
  • Trace 表示一条调用链路,根据Span的parentId串联起来

跟踪web请求

zipkin可以跟踪多种请求,如async方法,schedule,rxjava等,都在org.springframework.cloud.sleuth.instrument包下,这里以web请求做介绍。在SpringCloud下用sleuth来做跟踪处理。具体通过一个拦截器 org.springframework.cloud.sleuth.instrument.web.TraceHandlerInterceptor实现,如下

    @Override
    public boolean preHandle(HttpServletRequest request, HttpServletResponse response,
            Object handler) throws Exception {
        String spanName = spanName(handler);
        boolean continueSpan = getRootSpanFromAttribute(request) != null;
        Span span = continueSpan ? getRootSpanFromAttribute(request) : getTracer().createSpan(spanName);
        getTracer().continueSpan(span);
        if (log.isDebugEnabled()) {
            log.debug("Handling span " + span);
        }
        addClassMethodTag(handler, span);
        addClassNameTag(handler, span);
        setSpanInAttribute(request, span);
        if (!continueSpan) {
            setNewSpanCreatedAttribute(request, span);
        }
        return true;
    }
    
        @Override
        public void afterCompletion(HttpServletRequest request, HttpServletResponse response,
                Object handler, Exception ex) throws Exception {
            if (isErrorControllerRelated(request)) {
                if (log.isDebugEnabled()) {
                    log.debug("Skipping closing of a span for error controller processing");
                }                       
                return;
            }
            Span span = getRootSpanFromAttribute(request);
            if (ex != null) {
                getErrorParser().parseErrorTags(span, ex);
            }
            if (getNewSpanFromAttribute(request) != null) {
                if (log.isDebugEnabled()) {
                    log.debug("Closing span " + span);
                }
                Span newSpan = getNewSpanFromAttribute(request);
                getTracer().continueSpan(newSpan);
                getTracer().close(newSpan);
                clearNewSpanCreatedAttribute(request);
            }           
        }
                            
  1. 生成请求
  2. 将当前调用链的Trace信息记录到Http Headers中
  3. 记录当前调用的时间戳(timestamp)
  4. 发送http请求,并携带Trace相关的Header,如X-B3-TraceId:aa,X-B3-SpandId:6b
  5. 调用结束后,记录当次调用所花的时间(duration)
  6. 将步骤1-5,汇总成一个Span(最小的Trace单元),异步上报该Span信息给Zipkin Collector

发送跟踪数据

    @Override public Call<Void> sendSpans(List<byte[]> encodedSpans) {
        if (this.closeCalled)
            throw new IllegalStateException("close");
        return new HttpPostCall(this.messageEncoder.encode(encodedSpans));
    }

数据存储

zipkin支持mem,MySQL,ES存储方式,以io.zipkin.java:zipkin-server:2.6.1为例,可以通过配置实现。具体配置项可以在zipkin-server-shared.yaml中查看,如下:

    elasticsearch:
      # host is left unset intentionally, to defer the decision
      hosts: ${ES_HOSTS:}
      pipeline: ${ES_PIPELINE:}
      max-requests: ${ES_MAX_REQUESTS:64}
      timeout: ${ES_TIMEOUT:10000}
      aws:
        domain: ${ES_AWS_DOMAIN:}
        region: ${ES_AWS_REGION:}
      index: ${ES_INDEX:zipkin}
      date-separator: ${ES_DATE_SEPARATOR:-}
      index-shards: ${ES_INDEX_SHARDS:5}
      index-replicas: ${ES_INDEX_REPLICAS:1}
      username: ${ES_USERNAME:}
      password: ${ES_PASSWORD:}
      http-logging: ${ES_HTTP_LOGGING:}
      legacy-reads-enabled: ${ES_LEGACY_READS_ENABLED:true}
    mysql:
      host: ${MYSQL_HOST:localhost}
      port: ${MYSQL_TCP_PORT:3306}
      username: ${MYSQL_USER:}
      password: ${MYSQL_PASS:}
      db: ${MYSQL_DB:zipkin}
      max-active: ${MYSQL_MAX_CONNECTIONS:10}
      use-ssl: ${MYSQL_USE_SSL:false}

同时,举例用MySQL作为存储时的一张span对象表,如下:

CREATE TABLE IF NOT EXISTS zipkin_spans (
  `trace_id` BIGINT NOT NULL,
  `id` BIGINT NOT NULL,
  `name` VARCHAR(255) NOT NULL,
  `parent_id` BIGINT,
  `debug` BIT(1),
  `start_ts` BIGINT 
   COMMENT 'Span.timestamp(): epoch micros used for endTs query and to implement 
   TTL',
  `duration` BIGINT 
COMMENT 'Span.duration(): micros used for minDuration and maxDuration query'
) ENGINE=InnoDB ROW_FORMAT=COMPRESSED;

一般来说,分布式的链路跟踪数据是比较大量的,建议采用ES来存储,方便支持分区,以及后期的扩展等,比如使用某些字段来存储非结构化数据。

示例请求

以上就是所有内容,下面是一个请求和记录展示。


后台示例

相关

  1. 一个SpringCloud的各种组件展示项目:https://github.com/cicadasmile/spring-cloud-base

  2. zipkin介绍: https://www.jianshu.com/p/aef47033bc91

  3. zipkin主页: http://www.zipkin.io

推荐阅读更多精彩内容