腾讯 Apm 框架 Matrix 源码阅读 - TracePlugin 之 AnrTracer

版本

v0.6.5

温馨提示

  1. 在读这篇文章之前墙裂建议先读腾讯 Apm 框架 Matrix 源码阅读 - TracePlugin 架构解析
  2. TracePlugin 是比较复杂的,很多东西文章中可能讲的不是很清楚,配合 推荐 Matrix 源码完整注释
    可能会有更好的效果

概述

本篇文章是 腾讯开源的 APM 框架 Matrix 系列文章的第四篇,将对matrix-trace-canary这个模块种的StartupTracer类进行解析。这个类主要监控并上报App 冷/暖启动时间,Activity启动时间。上一篇为腾讯 Apm 框架 Matrix 源码阅读 - TracePlugin 之 StartupTracer

原理简介

通过 UIThreadMonitor 感知Looper loop工作的开始,刷新帧,结束的时间,并在结束时分析是否超过阈值,如果超过就从AppMethodBeat中获取相关数据进行分析并上报。

1. AnrTracer.生命周期方法

    public AnrTracer(TraceConfig traceConfig) {
        this.traceConfig = traceConfig;
        this.isAnrTraceEnable = traceConfig.isAnrTraceEnable();
    }

    @Override
    public void onAlive() {
        super.onAlive();
        if (isAnrTraceEnable) {
            //添加 LooperObserver 监听 详见【1.1】
            UIThreadMonitor.getMonitor().addObserver(this);
            //子线程handler
            this.anrHandler = new Handler(MatrixHandlerThread.getDefaultHandler().getLooper());
        }
    }

    @Override
    public void onDead() {
        super.onDead();
        if (isAnrTraceEnable) {
            //移除 LooperObserver 监听
            UIThreadMonitor.getMonitor().removeObserver(this);
            if (null != anrTask) {
                //释放 BeginRecord
                anrTask.getBeginRecord().release();
            }
            //anrHandler移除所有消息并退出
            anrHandler.removeCallbacksAndMessages(null);
            anrHandler.getLooper().quit();
        }
    }

首先构造方法也是读取配置并记录起来,onAlive()方法注册了LooperObserver监听,初始化了子线程handler anrHandler,onDead()中移除 LooperObserver 监听,清空anrHandler消息并退出

1.1 AnrTracer.dispatchBegin

AnrTracer注册了 LooperObserver 监听 所以会分别回调它里面的 dispatchBegin,doFrame,dispatchEnd方法,因为AnrTracer.doFrame并没有什么实质性的作用所以下面我们就对dispatchBegin,dispatchEnd这两个方法进行分析。

    public void dispatchBegin(long beginMs, long cpuBeginMs, long token) {
        super.dispatchBegin(beginMs, cpuBeginMs, token);
        //创建 AnrHandleTask
        anrTask = new AnrHandleTask(AppMethodBeat.getInstance().maskIndex("AnrTracer#dispatchBegin"), token);
        if (traceConfig.isDevEnv()) {
            MatrixLog.v(TAG, "* [dispatchBegin] token:%s index:%s", token, anrTask.beginRecord.index);
        }
        //将anrTask加入到anrHandler的延时队列中,如果超过5s anrTask还没有被移除就会被执行
        anrHandler.postDelayed(anrTask, Constants.DEFAULT_ANR - (SystemClock.uptimeMillis() - token));
    }

该方法主要作用是 创建anrTask并加入到anrHandler的延时队列中

1.2 AnrTracer.dispatchEnd

     public void dispatchEnd(long beginMs, long cpuBeginMs, long endMs, long cpuEndMs, long token, boolean isBelongFrame) {
        super.dispatchEnd(beginMs, cpuBeginMs, endMs, cpuEndMs, token, isBelongFrame);
        if (traceConfig.isDevEnv()) {
            MatrixLog.v(TAG, "[dispatchEnd] token:%s cost:%sms cpu:%sms usage:%s",
                    token, endMs - beginMs, cpuEndMs - cpuBeginMs, Utils.calculateCpuUsage(cpuEndMs - cpuBeginMs, endMs - beginMs));
        }
        if (null != anrTask) {
            //将anrTask从anrHandler的延时队列中移除
            anrTask.getBeginRecord().release();
            anrHandler.removeCallbacks(anrTask);
        }
    }

这个方法就是将anrTask从延时队列中移除。如果及时移除了就不会进行任何操作,如果超过5s还没有移除就会被Matrix判定为自定义的ANR,这个时候就会走到anrTask.run方法。

1.3 AnrHandleTask.run

  public void run() {
            //当前时间
            long curTime = SystemClock.uptimeMillis();
            //app 是否处于前台
            boolean isForeground = isForeground();
            // process 优先级
            int[] processStat = Utils.getProcessPriority(Process.myPid());
            //获取需要分析的方法栈信息
            long[] data = AppMethodBeat.getInstance().copyData(beginRecord);
            //释放 beginRecord
            beginRecord.release();
            //当前可见activity
            String scene = AppMethodBeat.getVisibleScene();

            // memory
            long[] memoryInfo = dumpMemory();

            // 线程状态
            Thread.State status = Looper.getMainLooper().getThread().getState();
            //堆栈信息
            StackTraceElement[] stackTrace = Looper.getMainLooper().getThread().getStackTrace();
            String dumpStack = Utils.getStack(stackTrace, "|*\t\t", 12);

            // 通过token(dispatchStart时间)获取不同Type 的耗费时间
            UIThreadMonitor monitor = UIThreadMonitor.getMonitor();
            long inputCost = monitor.getQueueCost(UIThreadMonitor.CALLBACK_INPUT, token);
            long animationCost = monitor.getQueueCost(UIThreadMonitor.CALLBACK_ANIMATION, token);
            long traversalCost = monitor.getQueueCost(UIThreadMonitor.CALLBACK_TRAVERSAL, token);

            // trace
            LinkedList<MethodItem> stack = new LinkedList();
            if (data.length > 0) {
                // 根据之前 data 查到的 methodId ,拿到对应插桩函数的执行时间、执行深度,将每个函数的信息封装成 MethodItem,然后存储到 stack 链表当中
                TraceDataUtils.structuredDataToStack(data, stack, true, curTime);
                //根据规则 裁剪 stack 中的数据,
                TraceDataUtils.trimStack(stack, Constants.TARGET_EVIL_METHOD_STACK, new TraceDataUtils.IStructuredDataFilter() {
                    @Override
                    public boolean isFilter(long during, int filterCount) {
                        return during < filterCount * Constants.TIME_UPDATE_CYCLE_MS;
                    }

                    @Override
                    public int getFilterMaxCount() {
                        return Constants.FILTER_STACK_MAX_COUNT;
                    }

                    @Override
                    public void fallback(List<MethodItem> stack, int size) {
                        MatrixLog.w(TAG, "[fallback] size:%s targetSize:%s stack:%s", size, Constants.TARGET_EVIL_METHOD_STACK, stack);
                        Iterator iterator = stack.listIterator(Math.min(size, Constants.TARGET_EVIL_METHOD_STACK));
                        while (iterator.hasNext()) {
                            iterator.next();
                            iterator.remove();
                        }
                    }
                });
            }

            StringBuilder reportBuilder = new StringBuilder();
            StringBuilder logcatBuilder = new StringBuilder();
            //获取最大的耗时时间
            long stackCost = Math.max(Constants.DEFAULT_ANR, TraceDataUtils.stackToString(stack, reportBuilder, logcatBuilder));

            // 查询出最耗时的 方法id
            String stackKey = TraceDataUtils.getTreeKey(stack, stackCost);
            MatrixLog.w(TAG, "%s \npostTime:%s curTime:%s",
                    printAnr(scene, processStat, memoryInfo, status, logcatBuilder, isForeground, stack.size(),
                            stackKey, dumpStack, inputCost, animationCost, traversalCost, stackCost), token, curTime); // for logcat

            //异常情况判断(当 AnrHandleTask 没有及时执行时会发生)
            if (stackCost >= Constants.DEFAULT_ANR_INVALID) {
                MatrixLog.w(TAG, "The checked anr task was not executed on time. "
                        + "The possible reason is that the current process has a low priority. just pass this report");
                return;
            }
            // report
            try {
                TracePlugin plugin = Matrix.with().getPluginByClass(TracePlugin.class);
                if (null == plugin) {
                    return;
                }
                JSONObject jsonObject = new JSONObject();
                jsonObject = DeviceUtil.getDeviceInfo(jsonObject, Matrix.with().getApplication());
                jsonObject.put(SharePluginInfo.ISSUE_STACK_TYPE, Constants.Type.ANR);
                jsonObject.put(SharePluginInfo.ISSUE_COST, stackCost);
                jsonObject.put(SharePluginInfo.ISSUE_STACK_KEY, stackKey);
                jsonObject.put(SharePluginInfo.ISSUE_SCENE, scene);
                jsonObject.put(SharePluginInfo.ISSUE_TRACE_STACK, reportBuilder.toString());
                jsonObject.put(SharePluginInfo.ISSUE_THREAD_STACK, Utils.getStack(stackTrace));
                jsonObject.put(SharePluginInfo.ISSUE_PROCESS_PRIORITY, processStat[0]);
                jsonObject.put(SharePluginInfo.ISSUE_PROCESS_NICE, processStat[1]);
                jsonObject.put(SharePluginInfo.ISSUE_PROCESS_FOREGROUND, isForeground);
                // memory info
                JSONObject memJsonObject = new JSONObject();
                memJsonObject.put(SharePluginInfo.ISSUE_MEMORY_DALVIK, memoryInfo[0]);
                memJsonObject.put(SharePluginInfo.ISSUE_MEMORY_NATIVE, memoryInfo[1]);
                memJsonObject.put(SharePluginInfo.ISSUE_MEMORY_VM_SIZE, memoryInfo[2]);
                jsonObject.put(SharePluginInfo.ISSUE_MEMORY, memJsonObject);

                Issue issue = new Issue();
                issue.setKey(token + "");
                issue.setTag(SharePluginInfo.TAG_PLUGIN_EVIL_METHOD);
                issue.setContent(jsonObject);
                plugin.onDetectIssue(issue);

            } catch (JSONException e) {
                MatrixLog.e(TAG, "[JSONException error: %s", e);
            }

        }

这个方法就完成了从AppMethodBeat中获取数据在进行整理,裁剪,组建长json后进行上报的工作。

AnrTracer 上报数据解析

tag: Trace_EvilMethod
key:token(dispatchStart的时间)

detail:固定为ANR
cost:总耗时
usage:主线程cpu占用率
scene:当前可见Activity名称
stack:方法栈信息, 每个item之间用“\n”隔开,每个item的含义为,调用深度,methodId,调用次数,耗时
    * 比如:0,118,1,5 -> 调用深度为0,methodId=118,调用次数=1,耗时5ms
stackKey:主要耗时方法 的methodId
threadStack:堆栈信息
processPriority:动态线程优先级
processNice:(静态线程优先级)
isProcessForeground:是否是后台线程
memory:内存情况包含如下三部分
    dalvik_heap:dalvik已使用内存大小(KB)
    native_heap:native已使用内存大小(KB)
    vm_size:虚拟内存总大小

系列文章

参考资料

推荐阅读更多精彩内容