蘑菇街Android客户端HotFix探索之路

该文章首发于美丽无线

本文章包含三部分:

  1. 业界各方案简介;

  2. 蘑菇街HotFix:Q-Zone篇,介绍ART Runtime对Q-Zone方案的限制;

  3. 蘑菇街HotFix:Aceso篇,介绍Aceso在InstantRun方案上的各种优化。

  4. 业界各方案简介


在Dalvik时代,只有Dexposed跟Q-Zone两家的方案,进入ART时代后各种Android热修复方案如雨后春笋般冒出来。

1.1 Dexposed

Xposed的非root版本,实现本进程的AOP, Dalvik上近乎完美,patch难写些, 但是不支持ART,现在已被AndFix取代。原理是Hook了Dalvik虚拟机的method->nativeFunc指针,如下:


1.2 Q-Zone

原理是Hook了ClassLoader.pathList.dexElements[]。因为ClassLoader的findClass是通过遍历dexElements[]中的dex来寻找类的。当然为了支持4.x的机型,需要打包的时候进行插桩。


1.3 Tinker

服务端做dex差量,将差量包下发到客户端,在ART模式的机型上本地跟原apk中的classes.dex做merge,merge成为一个新的merge.dex后将merge.dex插入pathClassLoader的dexElement,原理类同Q-Zone,为了实现差量包的最小化,Tinker自研了DexDiff/DexMerge算法。Tinker还支持资源和So包的更新,原理类同InstantRun,这里不详解。

1.4 Robust

美团即将开源的Robust方案是个好东西,他是在AOSP的InstantRun方案的基础上进行的极致优化,由于是基于.class级别的AOP方式,兼容性相比其他方案天然有很大的优势,而且下载即生效也是个优势,美中不足的是对包大小和磁盘占用(Android 5.x上OAT文件会比较大)仍然有影响,虽然相比InstantRun方案已经有了很大的优化。

大体流程如下,在原Dex中对所有可能需要HotFix的方法注入一段代码,这段代码判断当前method是否被HotFix了,如果是,那么去patch.dex中执行对应的HotFix代码,否则继续执行原来的逻辑。

1.5 AndFix

其原理是替换了dex_cache中的目标ArtMethod,但是由于Android 7.0的Inline的优化,导致AndFix不能支持Android 7.0,阿里那边是采用的动态部署进行Android 7.0上的HotFix的。AndFix的原理后面会继续分析。

1.6 Amigo

Amigo的基本原理是直接下发新的Dex,资源,so包到客户端,然后开启一个新的ClassLoader加载新的Dex,开启一个新的AssetManager加载新的Resources,可谓暴力而简单。缺点是流量跟磁盘占用比较大,下发一次HotFix相当于安装了两遍APK。

  1. 蘑菇街HotFix-Q-Zone篇

蘑菇街这边开始做HotFix方案的时候,当时业界只有Q-Zone跟Dexposed方案,后来是采用了Q-Zone的方案的,但是对Q-Zone方案心里不是很有底,所以去看了下ART虚拟机的方法加载机制,从虚拟机层面弄清楚了其可靠性。大致总结如下:

  1. Dalvik上解释执行:
    1.1. field通过field name查找
    1.2. method通过签名查找
    1.3. 注入前被加载的类不能被patch
    1.4. const变量会被优化为常量,不能被patch
    1.5. 下载patch后下次启动才能生效
  2. ART实现AOT优化,
    2.1. field/部分method通过偏移查找,修改类结构将带来找错或者找不到的问题。

这样,只要限定死不修改类结构,即只修改函数体,那么理论上Q-Zone方案是不会有问题的。

2.1 Method调用类型

为了确认Q-Zone方案在ART上的可靠性,我们研究了所有类型Method的调用方式,如下:


2.2 Art运行时的主要数据结构

以下是Art Runtime Native的主要数据结构。


每个Dex都对应一个DexFile/DexCache。
每一个类都对应有一个class结构,包含加载的ClassLoader,一张IfTable即Interface-table,vTable即virtual-table,该class所有的Field和method分别保存在ArtField/ArtMethod中。

2.3 method调用过程(狸猫换太子)

一个dexfile中的类如果从来没有被加载过,那么defineClass会为这个dexFile创建一个DexCache,这个DexCache包含一个指针数组resolved_methods_,数组的大小就是当前dexFile中所有的method方法数:

HeapReference<PointerArray> resolved_methods_;

并且初始化所有的指针都指向了一个叫做Runtime method的ArtMethod,这个Runtime method就是个“狸猫”,他只是一个代理,后面会将真正的“太子”方法请回来,好,这个Runtime method也是一个ArtMethod, 它有三个跳转指针变量,其中最重要的entry_point_from_quick_compiled_code_指向一段汇编指令,最后回调到蹦床函数artQuickResolutionTrampoline()

void* entry_point_from_quick_compiled_code_;

如果是同一个dex内部跳转,在类首次被调用时,那么它的函数调用接口最终都走到了这个artQuickResolutionTrampoline()蹦床函数.
比如class A的caller()调用到了类B的callee(),A.caller()->B.callee(),dex2oat在生成A.caller()的native code时,其调用B.callee()最后就偏移到了class B所在的dexcache中callee对应的ArtMethod的entry_point_from_quick_compiled_code_地址。dex2oat如何知道callee对应的ArtMethod呢?因为Dex文件里面保存了callee在该Dex中的信息,包括签名和methodId,而dexcache中的ArtMethods数组就是按照这个methodId来对应到各个method的。所以, dex2oat在解析了Dex文件后根据methodId就知道到哪个ArtMethod去调用entry_point_from_quick_compiled_code_了。

总结下如上图:

  1. Dex_cache被初始化的时候,resolved_methods数组里面所有的ARTMethods都指向同一个“狸猫”ArtMethod,这个ArtMethod的entry_point_from_quick_compiled_code_指向的是一个蹦床函数artQuickResolutionTrampline。

  2. 在方法首次被调用的时候,先运行的是这个蹦床函数,如果class还未link,在这个蹦床函数里面去resolve/link Class, 创建virtual_methods, direct_methods/ifTableArray三张表,这时候这个类所有方法对应的ArtMethod就被创建好了。

  3. 找到"太子"ArtMethod,然后将其回填到DexCache中的resolved_methods,下次运行的时候就是从“太子”ArtMethods获取entry_point_from_quick_compiled_code_了,这个指向OAT文件中对应该method的native code。

invoke_virtual和invoke_interface调用跟invoke_direct类似,所不同的是查找“太子"ArtMethod时是从virtual_methods/ifTableArray中查找。

2.4 Virtual-Table创建

invoke_direct, invoke_static, invoke_super都是在direct_methods中查找到对应的ArtMethod的。

invoke_virtual和invoke_interface指令是通过在virtual_methods和ifTableArray中查找到对应的ArtMethod的。

创建过程如下:

  1. 读取当前类的所有public方法和父类的virtual table,
  2. 将父类virtual table的ArtMethod放在当前类的virtual table前面
  3. 比较当前类的public 方法的签名,有相同的就覆盖
  4. 将剩下的public方法的ARTMethods append到virtual table后面
  5. 赋予每个Virtual table中的ArtMethod一个method_id,用来标记在vitual Table中的偏移

2.5 IfTable创建

跟virtual table的创建类似,所不同的是不仅仅IfTable相同的需要覆盖,有相同签名的ArtMethod也需要覆盖。如下:

2.6 Filed访问

  1. Constant变量,在编译为.class的时候就会被优化为常量。
  2. Instant和static变量,dex2oat会以其在类中的偏移来访问。

2.7 跨Dex访问

以上总结的都是同一个Dex中的访问方式。对于跨Dex的访问,Method和Field都是通过签名来访问的。

2.8 总结

采用Q-Zone方案,即将HotFix的dex插到PathClassLoader的前面。限制HotFix不能修改类结构,即只能修改函数体的情况下:

  1. Dalvik模式:采用解释执行,即通过方法签名和field名字来查找,理论上能够支持。唯有Const变量不能修改。
  2. ART模式:从原dex访问HotFix中的方法和field,函数和field将会根据类的偏移来访问,由于类结构没变化,理论上支持;从HotFix访问原dex,将采用的是跨dex的解释模式访问,理论上支持。

2.9 AndFix原理

顺便,这里我们来看下AndFix的原理, Andfix主要实现代码如下:

其核心思想就是替换了dex_cache中的目标ArtMethod(dmeth)的内容,将dmeth的内容替换成为smeth的内容,包括native代码的在OAT文件的偏移,classloader等。

  1. 缺陷:
    受限于类结构不能改变,AndFix不支持新增方法,新增类,新增field等
    由于采用注入方式,适配性是个考验。AndFix1.0几乎不可用,到了2016年中的AndFix2.0才把坑基本填完。

  2. 优势:
    针对method级别的hotfix,patch中只需要带上需要改变的方法,其HotFix的size是非常小的。且立即生效,不用等下次重启。

  3. 蘑菇街HotFix-Aceso篇


3.1 Aceso方案诞生背景

Q-Zone方案在蘑菇街平台上良好运行了半年左右,一切的改变发生在Android N的问世,由于Android N采用的是JIT+AOT profile的混合编译方式,Tinker跟Q-Zone方案跪了,Google为了解决ART上首次安装APK就做OAT带来的性能和IO占用的问题,采用了混合编译的折中方案,在APK首次运行时采用解释模式,然后运行期去收集”热代码“,通过JobScheduler对“热代码”做OAT,同时生成一个叫做Base.art的索引文件,里面保存了已经编译好的”热代码“在OAT中的索引,在应用启动的时候预先加载这些“热点类”到ClassLoader的dexcache缓存中,由于提前将这些类加载到了cache中,这样会导致这些“热点类”的方法永远没办法被替换。下图从Tinker那边拷贝过来的,AndroidN混合编译就像一个小的生态:

后来跟Tinker负责人进行探讨,找到了完美的解决方案:

  1. 为了绕开混合编译带来的影响,我们抛弃原来的PathClassLoader,转而创建一个新的ClassLoader(AndroidNClassLoader)来加载绝大部分类,PathClassLoader将只加载ProxyApp,然后在ProxyApp中使用AndroidNClassLoader反射调用到realApp,这样从realApp开始,所有被realApp直接或者间接调用到的类都将被AndroidNClassLoader加载了,然后将HotFix的Dex插入AndroidNClassLoader的dexElements[]即可;末了,将AndroidNClassLoader注入PackageInfo中,这样系统以后也会用AndroidNClassLoader来进行类加载了,主要是Android四大组件的加载。
  2. 为了继续利用系统本身已经生成好的OAT文件,防止重新生成一份OAT文件来耗磁盘,在AndroidNClassLoader中需要重新创建DexFile, 并调用makePathElements方法将老的Dex跟OAT文件的路径作为参数传入,这样就能够复用以前的OAT文件了。

当时天真的以为Game Over了,直到Tinker负责人告知又有新问题了,原来Android 7.0上inline进行了很大的优化,请参考Tinker的文章:

"ART下的方法内联策略及其对Android热修复方案的影响分析"

http://dwz.cn/5hajFl

好了,Q-Zone方案继续跪,Tinker因为采用分平台合成也跪,AndFix方案也跪了,因为大家都没办法修复被inline掉的代码;为了解决Inline问题,Tinker是从原来IO占用比较小的分平台合成转而做了IO很耗的全量合成的方案,AndFix方面根本没办法修复,手淘那边是采用了动态部署方案兜底,即7.0上采用动态部署(类似Tinker做全量合成), 而Q-Zone方案没有办法能够解决。当我们正在犹豫是否要接入Tinker/Amigo这种重量级产品之际(犹豫是因为用Tinker/Amigo做热修复简直就是大炮打蚊子,Dex,资源都做全量合成,IO占用非常耗,Tinker/Amigo比较适合做功能升级, 其实蘑菇街这边后来是接了Tinker来做类似Atlas的动态部署的事情),这个时候美团的Robust方案的文章面世了(基于InstantRun方案的改造),并得知已经在美团十几个App上运行了半年之久,这里非常感谢Tinker负责人张绍文同学的帮助跟美团那边的技术分享,说实话不想重复造轮子,但是Robust开源不知道什么时候,而且是否靠谱心里不是很有底,于是我们花了一个近月时间自研了跟Robust原理一样的Aceso方案来验证其可靠性。这里取名Aceso--希腊神话中的健康女神。

此方案有2个比较明显好处,一个是下载即生效,另外一个是兼容性好,由于是使用ASM注入的方式,有希望1,2年内都不用再跟在Google后面做兼容性适配了。

以下总结当前主流的HotFix方案对比:

3.2 原生InstantRun方案的基本原理

InstantRun在打HotFix包时,会为每个类塞入一个change变量。开发过程中,如果这个类一直没有变化,那么change一直为空。如果类发生变化,change将被塞入patch的类实例。举个例子:

通过ASM注入后的HotFixActivity.java

再看下patch的实现类:

InstantRun方案其实原理很简单,关键是填坑,为了暴露这些坑,尽量发现足够多的应用场景,我们采用暴力测试的方法,一次HotFix了900多个类,包括图片库,网络库这种比较频繁调用的库,后来又陆陆续续适配了蘑菇街其他组件,并把暴力测试的这些类灰度到线上,直到发现的坑都踩完填完为止。 另外,使用原生InstantRun方案会带来2个问题,一个是包会增大很多,蘑菇街apk从42M增加到了60M;另外一个是由于采用反射导致性能影响比较大,这对于频繁调用的方法来说就是噩梦。
我们通过不停优化,最后包大小只增加了1.5M,性能方面,同样暴力热修复了900多个类在线上线下并没有发现性能问题,事实上,InstantRun机制本身需要的反射被大部分优化掉后,理论上不会有性能瓶颈了。

3.3 Aceso的结果

  1. 本地暴力测试(修复1500+类,覆盖4.x-7.x机型),
  2. Testin和Monkey通过,线上灰度3w用户(暴力修复900+常用类),蘑菇街线上发了20多个HotFix,没看到问题。
  3. 包大小增加1.5M,线上线下未发现性能问题。

3.4 原生InstantRun方案的那些坑

首先是包大小问题,主要包括三个方面

  1. InstantRun插桩增加的包大小,
  2. 为支持super.method()增加的包大小,
  3. 为兼容super(), this()增加的包大小。

最后我们将原InstantRun方案需要增加的18M降低到了1.5M。

InstantRun插桩增加的包大小解决方案

InstantRun方案为每个类增加一个静态变量,并且会在每个函数前插桩,增加了指令数和字符串,其中,多了字符串是主要原因。

为了解决字符串的问题,此处借用了Proguard的思想,在编译期间将所有的方法都映射为一个int值,然后将映射关系保存在一个mapping文件中。

3.5 为支持super.method()增加的包大小

InstantRun是在一个叫override类去调用被修类的各种方法。但遇到如super.method的情况,它是处理不了的,因为没有办法调用另外一个对象的super.xxx。
为了解决这个问题,InstantRun在原类中增加一个超大的代理函数。这个函数中有一个switch,switch的每个case对应了一个父类方法,也就是说这个类的父类有多少个方法,那么这个switch就有多少个case。然后根据传入的参数来决定要调用父类的哪个方法。

我们借鉴了Robust的方案,将需要调用super.method()的地方通过字节码处理工具将作用对象换为原对象,并且将override的父类改为被HotFix类的父类,就能够调用原有对象的super方法。例如 假设JustTest类的父类是activity,那在override类也要继承activity,并且将调用super.toString的地方,将作用对象换为JustTest的实例。这里的justTest.super()是伪代码,代表了它字节码层面是这个含义。

3.6 为兼容super(), this()增加的包大小

InstantRun为了在override类中调用原有类的super()方法和 this()方法,会在每个类中增加一个构造方法。然后在override类中会生成两个方法args 和bodys ,arg返回一个字符串,代表要调用哪个this或super方法,body中则是原来构造函数中的除this或super调用的其他逻辑。当一个类的构造方法被HotFix时,在它的构造方法中会先调用override类的args,将args返回的字符串传递给新生成的构造方法,在新生成的构造方法里会根据字符串决定要调用哪个函数。之后再调用body方法。

为了兼容this调用,InstantRun会让每个类额外的增加一个构造方法。我们最后选择放弃对构造函数的支持,因为使用InstantRun的增加一个构造函数的方案会使得包大小额外增加1m,另外最重要的构造函数被修的概率很低,咨询了下负责发HotFix的同学,以前从来没有修过构造函数。所以权衡之下,我们决定放弃对构造函数的支持。

3.8 HotFix粒度

我们将HotFix的粒度从class级别降为了method级别,并要求写HotFix的同学在写HotFix代码时,在需要修复的method方法上申明一个annotation。

将HotFix的粒度从class级别降为了method级别有三个好处:

  1. 如果HotFix出了问题,能尽量降低其带来的负面影响,
  2. 减少HotFix带来的性能消耗,
  3. 减少即时生效时的时间窗口大小。

3.9 HotFix类的按需加载问题

InstantRun原有机制是可能导致被HotFix类提前加载到虚拟机中的,这会导致一些问题(比如说一个类的静态方法中有用到mgapplicatiion类的sApp这个静态变量,如果我们加载HotFix的时候,sApp还没赋值,那就会NPE)。

3.10 性能问题

因为要在override类的对象中去访问原有类的属性,所以必定会涉及到访问权限问题。
InstantRun会在编译期间将:

  1. 所有的protected以及默认访问权限的方法和字段改为public。可以不用反射,直接访问。
  2. 对于private的方法,InstantRun会将被HotFix类的所有private方法拷贝到override类中,当override中的方法需要调用被hotfix类的私有方法时,直接调用override类的私有方法就好了。但是对于framework层的protected方法和字段(如activity的protected方法),就只能通过反射去调用(因为我们不能修改framework层的访问权限)。对于所有的private字段也是通过反射去访问。

因此,存在一定的性能问题,我们通过两个手段来优化这个问题:

  1. 用一个全局的Lru Cache存储查找反射过的字段与方法,这样尽量保证反射只被调用一次,
  2. 全局将private字段改为public,做到对private字段都以public方式直接访问;
  3. 最后剩下Framework中的private方法还有JNI的private方法需要反射调用,这些对性能会有影响。

由于篇幅有限,还有不少坑这里不一一列举了。

最后,Aceso经过线上几个版本的验证已经完全稳定,我们决定开源分享出来,欢迎围观。开源地址:
https://github.com/meili/Aceso

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 157,012评论 4 359
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 66,589评论 1 290
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 106,819评论 0 237
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 43,652评论 0 202
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 51,954评论 3 285
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 40,381评论 1 210
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 31,687评论 2 310
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 30,404评论 0 194
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 34,082评论 1 238
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 30,355评论 2 241
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 31,880评论 1 255
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 28,249评论 2 250
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 32,864评论 3 232
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 26,007评论 0 8
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 26,760评论 0 192
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 35,394评论 2 269
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 35,281评论 2 259

推荐阅读更多精彩内容