【译】JVM Anatomy Park #22: 安全点检查

原文地址:JVM Anatomy Park #22: Safepoint Polls

问题

所有这些问题的答案是同一个。

理论

像 JVM 这种托管运行时系统,有时需要停止 Java 线程,执行一些运行时代码。比如,执行 stop-the-world GC。可以等待所有线程最终调用 JVM,比如申请内存(经常执行 TLAB 替换),或者类似的操作。但是这不一定会发生!如果线程正在执行某种频繁的循环逻辑而不做别的事情怎么办?

在大部分机器上停止运行的线程实际上是很简单的:向线程发送一个信号,强制处理器中断,等。停止线程正在执行的操作,将控制权转交给别处。然而,这还不足以让 Java 线程在任意位置停止,特别是如果你需要精确的垃圾回收。在这种情况下,你需要知道寄存器和栈中的内容,这些内容可能是你需要处理的对象引用。或者如果你想要取消偏向锁,你需要精确的知道线程的状态和获取的锁。或者如果你想要逆优化方法,你需要在不丢失执行状态和临时值的安全位置操作。

因此像 Hotspot 这种现代 JVMs 实现了协作机制:线程经常询问是否应该将控制权交给 VM,在线程生命周期中某些已知的位置,线程的状态是已知的。当所有线程都在已知的位置停止的时候,VM 被认为是到达了安全点。检查安全点请求的代码片段因此被称为安全点检查(safepoint polls)

这种实现需要满足以下有趣的权衡:安全点检查很少触发进程停止,所以在不触发时应该非常高效。我们可以通过实验观测么?

实践

考虑这个简单的 JMH 测试用例:

import org.openjdk.jmh.annotations.*;

import java.util.concurrent.TimeUnit;

@Warmup(iterations = 5, time = 1, timeUnit = TimeUnit.SECONDS)
@Measurement(iterations = 5, time = 1, timeUnit = TimeUnit.SECONDS)
@Fork(3)
@BenchmarkMode(Mode.AverageTime)
@OutputTimeUnit(TimeUnit.NANOSECONDS)
@State(Scope.Benchmark)
public class EmptyBench {
    @Benchmark
    public void emptyMethod() {
        // This method is intentionally left blank.
    }
}

你可能认为这个测试用例测量的是空方法,但是实际上这测量的是执行测试用例最小的基础设施代码:统计迭代,等待迭代执行时间。这段代码执行的非常快,所以可以使用 -prof perfasm 剖析执行过程。

这是原装 OpenJDK 8u191 的执行结果:

3.60%    ...a2: movzbl 0x94(%r8),%r10d       ; load "isDone" field
0.63%  │  ...aa: add    $0x1,%rbp             ; iterations++;
32.82% │  ...ae: test   %eax,0x1765654c(%rip) ; global safepoint poll
58.14% │  ...b4: test   %r10d,%r10d           ; if !isDone, do the cycle again
       ╰  ...b7: je     ...a2

这个空方法被内联了,所有的调用成本都消除了,仅仅剩下基础设施逻辑。

看到 “global safepoint poll” 了么?当需要检查点的时候,JVM 将会持有“检查页(polling page)”[1],任何对该页的读操作将会触发 段错误 (SEGV)。当安全点检查最终触发 SEGV 时,控制权将会传递给任一存在的 SEGV 处理器,JVM 已经准备好了一个!可以看一下 JVM_handle_linux_signal 如何处理段错误

所有这些技巧的目的是使得安全点的成本尽可能低,因为很多位置都需要安全点,但是几乎不会触发。基于这个原因,使用 test %eax, (addr) 指令:当安全点检查没有触发的时候,这条指令没有作用[2]。这条指令的编码也很紧凑,在 x86_64 平台仅仅占用6字节。对于给定 JVM 进程,检查的页地址是固定的,所以 JIT 生成的代码可以使用相对 RIP 寻址(RIP-relative addressing):从当前指令指针给定页地址的偏移量,而不需要耗费空间编码8字节绝对地址。

通常来说只有一个检查页来处理所有线程,所以生成的代码不需要辨别当前执行的线程。但是如果 VM 想要停止单个线程,如何操作?JEP-312: "Thread-Local Handshakes" 给出了这个问题的答案。为 VM 提供了对单个线程触发握手(handshake)检查的能力,当前是通过为每个线程分配单独的检查页实现的,检查指令读取线程局部存储(thread-local storage)中的页地址。[3][4]

这是原装 OpenJDK 11.0.1 的执行结果:

0.31%    ...70: movzbl 0x94(%r9),%r10d   ; load "isDone" field
0.19%  │  ...78: mov    0x108(%r15),%r11  ; reading the thread-local poll page addr
25.62% │  ...7f: add    $0x1,%rbp         ; iterations++;
35.10% │  ...83: test   %eax,(%r11)       ; thread-local handshake poll
34.91% │  ...86: test   %r10d,%r10d       ; if !isDone, do the cycle again
       ╰  ...89: je     ...70

这纯粹是运行时的问题,所以可以通过 -XX:-ThreadLocalHandshakes 关闭这个特性,生成的代码将会与 8u191 中的一样。这解释了 8 与 11 测试结果不同的原因(让我们马上用 -prof perfnorm 执行测试用例):

Benchmark                              Mode  Cnt  Score   Error  Units

# 8u191
EmptyBench.test                        avgt   15   0.383 ±  0.007  ns/op
EmptyBench.test:CPI                    avgt    3   0.203 ±  0.014   #/op
EmptyBench.test:L1-dcache-load-misses  avgt    3  ≈ 10⁻⁴            #/op
EmptyBench.test:L1-dcache-loads        avgt    3   2.009 ±  0.291   #/op
EmptyBench.test:cycles                 avgt    3   1.021 ±  0.193   #/op
EmptyBench.test:instructions           avgt    3   5.024 ±  0.229   #/op

# 11.0.1
EmptyBench.test                        avgt   15   0.590 ±  0.023  ns/op ; +0.2 ns
EmptyBench.test:CPI                    avgt    3   0.260 ±  0.173   #/op
EmptyBench.test:L1-dcache-loads        avgt    3   3.015 ±  0.120   #/op ; +1 load
EmptyBench.test:L1-dcache-load-misses  avgt    3  ≈ 10⁻⁴            #/op
EmptyBench.test:cycles                 avgt    3   1.570 ±  0.248   #/op ; +0.5 cycles
EmptyBench.test:instructions           avgt    3   6.032 ±  0.197   #/op ; +1 instruction

# 11.0.1, -XX:-ThreadLocalHandshakes
EmptyBench.test                        avgt   15   0.385 ±  0.007  ns/op
EmptyBench.test:CPI                    avgt    3   0.205 ±  0.027   #/op
EmptyBench.test:L1-dcache-loads        avgt    3   2.012 ±  0.122   #/op
EmptyBench.test:L1-dcache-load-misses  avgt    3  ≈ 10⁻⁴            #/op
EmptyBench.test:cycles                 avgt    3   1.030 ±  0.079   #/op
EmptyBench.test:instructions           avgt    3   5.031 ±  0.299   #/op

所以线程局部握手增加了一次额外的 L1 命中加载,这耗费了大约半个周期。这也为我们评估安全点检查的成本提供了一些基准:L1 命中加载,大概额外耗费半个周期。

观察

安全点和握手检查是托管运行时系统实现中的小细节。它们经常出现在生成代码的热路径中,有时候会影响性能,特别是在密集的循环中。然而,对于运行时系统实现诸如垃圾回收、锁优化、逆优化等重要的特性,这些操作是必要的。

有许多安全点相关的优化,我们将会单独讨论。


  1. 在 Linux/POSIX 中,调用 mprotect(PROT_NONE)足够了。
  2. 差不多吧。在 x86 中,这条指令改变标志位,但是下一条指令将会重写,我们只需要注意别在 test 和相关的 jCC 之间再做安全点检查。
  3. 线程局部存储是每个线程可以访问的一段本地数据。在许多平台中,寄存器的压力不是很高,生成的代码总是将线程局部存储放在寄存器中。在 x86_64 中,存储位置通常是 %r15
  4. 从技术上讲,停止一部分线程不是一个“安全点”。但是当线程局部握手(thread-local handshakes)启动的时候,可以通过握手所有线程实现安全点。对于“安全点”和“握手”的场景都支持。
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 158,560评论 4 361
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 67,104评论 1 291
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 108,297评论 0 243
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 43,869评论 0 204
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 52,275评论 3 287
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 40,563评论 1 216
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 31,833评论 2 312
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 30,543评论 0 197
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 34,245评论 1 241
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 30,512评论 2 244
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 32,011评论 1 258
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 28,359评论 2 253
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 33,006评论 3 235
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 26,062评论 0 8
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 26,825评论 0 194
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 35,590评论 2 273
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 35,501评论 2 268

推荐阅读更多精彩内容

  • 从三月份找实习到现在,面了一些公司,挂了不少,但最终还是拿到小米、百度、阿里、京东、新浪、CVTE、乐视家的研发岗...
    时芥蓝阅读 42,014评论 11 349
  • 一、多线程 说明下线程的状态 java中的线程一共有 5 种状态。 NEW:这种情况指的是,通过 New 关键字创...
    Java旅行者阅读 4,593评论 0 44
  • Java8张图 11、字符串不变性 12、equals()方法、hashCode()方法的区别 13、...
    Miley_MOJIE阅读 3,634评论 0 11
  • 在一个方法内部定义的变量都存储在栈中,当这个函数运行结束后,其对应的栈就会被回收,此时,在其方法体中定义的变量将不...
    Y了个J阅读 4,390评论 1 14
  • 这篇文章是我之前翻阅了不少的书籍以及从网络上收集的一些资料的整理,因此不免有一些不准确的地方,同时不同JDK版本的...
    高广超阅读 15,413评论 3 83