深入理解 RxJava2:论 Parallel 与并发(5)

前言

欢迎来到深入理解 RxJava2 系列第五篇。在上一篇文章中,我们在一个例子里用到了 parallel 操作符,本篇我们便是要介绍该操作符,并对比 RxJava 一些常见的并发手段,详述 parallel 的优越性。

陈旧的 parallel

出生

Parallel 这个操作符首次在 RxJava 0.13.4 版本添加进去,作为一个实验性质的 API,并在同一个版本为Scheduler添加了degreeOfParallelism方法为parallel独用。

public abstract class Scheduler {

    public int degreeOfParallelism() {
        return Runtime.getRuntime().availableProcessors();
    }
    
    ...
}

后来在 0.18.0 版本重构了一次Scheduler,并顺带把degreeOfParallelism简化成了parallelism

遗弃

然而这个操作符当时的实现,并不是那么恰当,和大家预期的用法不一致。类比 Java8 的 Stream API,开发者们期望的是在调用parallel后,后续的操作符都会并发执行,然而事实并不是这样。

当时的parallel实现的有点半成品的意味,因此在 1.0.0-RC2 时被移除了。详情见 Issue :https://github.com/ReactiveX/RxJava/issues/1673

与此同时Schedulerparallelism便不再有用了,随即在 1.0.0-RC11 版本被移除。

GroupBy 与 FlatMap

parallel不在的日子里,我们如果想并发的做一些操作,通常都会利用flatMap

...
.flatMap(new Function<Object, Publisher<?>>() {
    @Override
    public Publisher<?> apply(Object o) throws Exception {
        return Flowable
                .just(o)
                .subscribeOn(Schedulers.computation())
                ...;
    }
})
...
.subscribe();

有些读者会疑问为什么要这样写,直接用observeOnsubscribeOn不行吗。显然不行,我们在《深入理解 RxJava2:Scheduler(2)》强调过,每个Worker的任务都是串行的,因此如果不用flatMap来生成多个Flowable,就无法达到并行的效果。

事实上上面的这种写法吞吐量非常的差,因此我们还需要借助groupByflatMap来配合:

Flowable.just("a", "b", "c", "d", "e")
        .groupBy(new Function<String, Integer>() {
            int i = 0;
            final int cpu = Runtime.getRuntime().availableProcessors();

            @Override
            public Integer apply(String s) throws Exception {
                return (i++) % cpu;
            }
        })
        .flatMap(new Function<GroupedFlowable<Integer, String>, Publisher<?>>() {
            @Override
            public Publisher<?> apply(GroupedFlowable<Integer, String> g) throws Exception {
                return g.observeOn(Schedulers.computation())
                        ... // do some job
            }
        })
        ...
        .subscribe();

通过groupBy将数据分组,再将每组的数据通过flatMap调度至一个线程来执行。groupByflatMap的组合,可以任意控制并发数,由于避免了很多无用的损耗,性能较单独的flatMap大大提升。

然而上面的代码表述力不太好,而且很多不熟悉这些操作符的开发者写不出类似的代码,简单的说就是不太好用。

于是一个能无缝的嵌入Flowable调用链的parallel迫在眉睫。

重生

在 RxJava 2.0.5 版本,parallel终于浴火重生。而这次重生后的parallel不再寄托于Flowable,而是自立门户,通过独立的ParallelFlowable来实现。

public abstract class ParallelFlowable<T> {
    public abstract void subscribe(@NonNull Subscriber<? super T>[] subscribers);
    public abstract int parallelism();
}

从类的定义可以看出,这个对象的订阅者是Subscriber数组,且数组的长度必须严格等于parallelism()返回值。由于subscribe接口的变化,并发的操作符编写就简单很多。

ParallelFlowable也类似Flowable内置了一些操作符,虽然数量有限,但是非常实用,且可以与Flowable无缝转换。

操作符

Parallel

Flowable中, 可以通过Parallel操作符将Flowable对象转变成ParallelFlowable对象:

public final ParallelFlowable<T> parallel(int parallelism) {
    return ParallelFlowable.from(this, parallelism);
}

从一个Flowable转变成ParallelFlowable并没有线程相关的操作,从参数也可看出,并无Scheduler的参与。数据流的转换也非常简单:

Parallel

可见Parallel仅仅是将原本应该分发至一个Subscriber的数据流拆分开,“雨露均沾”了而已。

但是转变成ParallelFlowable后,由于多个Subscriber的存在,并发就非常的简单了,我们只需要提供一个线程操作符即可:

RunOn

RunOnParallelFlowable就像ObserveOnFlowable

public final ParallelFlowable<T> runOn(@NonNull Scheduler scheduler, int prefetch) {
    return new ParallelRunOn<T>(this, scheduler, prefetch);
}

public final Flowable<T> observeOn(Scheduler scheduler, boolean delayError, int bufferSize) {
    return new FlowableObserveOn<T>(this, scheduler, delayError, bufferSize);
}

这两者参数几乎一致,唯一不同的是ObserveOn额外提供了一个delayError的参数。

他们的效果是非常相似的,都是对下游的onNext / onComplete / onError调度线程。不过RunOn对于下游的每个Subscriber都会独立创建一个Worker来调度:

RunOn

因此多个Subscriber是可能并发的,这取决于选择的Scheduler。我们在前文中强调过,每个Worker创建的任务仅与该Worker相关联,但是这并不意味着每个Worker对应一个线程,不同的Scheduler的实现创建的Worker效果大相径庭,更多细节可查看《深入理解 RxJava2:Scheduler(2)》

Sequential

顾名思义,该操作符就是重新把ParallelFlowable转回Flowable,但是数据是循环发射的,不保证遵循数据原始的发射顺序:

Sequential

其他

以上三个操作符是最核心也是最常用的,除此之外,ParallelFlowable还有诸多操作符,效果与Flowable中类似,部分可根据实际情况与runOn结合使用,以达到最佳效果。

  • Map
  • Filter
  • FlatMap
  • doOnXXX / doAfterXXX
  • reduce
  • sorted
  • ...

对比

GroupBy 与 Parallel

上面我们举例了通过groupByflatMap组合实现的并发效果。事实上,除了从感官上更加好用外,parallel的并发效果也是最好的。

Benchmark

在 GitHub RxJava 的仓库中,其实已经内置了基于 OpenJDK JMH 的 Benchmark 的代码,均在 src/jmh 目录中,对 JMH 不熟悉的同学可以自行去了解。

我们这里对并发的性能做一次测试,使用仓库中的ParallelPerf类即可,笔者机器的配置是 3 GHz Intel Core i7 4 核 + 16 GB 1600 MHz DDR3,效果如下:

Benchmark

我这里解释一下参数的含义:

  • Count:数据源数目
  • Compute: 可以认为是 CPU 耗时的单位,随着数值增大而接近线性增长
  • Parallelism:并发数目,这里可以近似地认为是线程数目

另外图表中表头带 error 的字样是表示 99.9% 的置信区间,如
第一行的 GroupBy 置信区间为:[1539.814 - 41.88, 1539.814 + 41.88]。

根据图中的结果,可见在Compute较小的情况下,parallelgroupBy是有着绝对的优势的,说明parallel的性能损耗较小。

Compute较大时,操作符内部的性能损耗相对全局的影响较小,因此这两者性能则差不多。

SchedulerMultiWorkerSupport

不仅如此,runOn操作符在创建Worker时,有特别的优化:

public interface SchedulerMultiWorkerSupport {
    void createWorkers(int number, @NonNull WorkerCallback callback);

    interface WorkerCallback {
        void onWorker(int index, @NonNull Scheduler.Worker worker);
    }
}

Scheduler通过实现这个接口,能够针对一次创建多个Worker的情况做优化,目前仅ComputationScheduler支持。具体的源码不列出来了,优化后实际的效果就是尽可能的平均了线程和Worker的负载。

换言之,如果我们使用groupBy做并发时,对应的分组后的Flowable可能由于其他的操作符也在使用ComputationScheduler导致分下去的Worker对应的线程可能有重合和遗漏。

举个例子,请看下面的代码:

Flowable.just(1, 2)
        .groupBy(new Function<Integer, Integer>() {
            @Override
            public Integer apply(Integer v) throws Exception {
                return v % 2;
            }
        })
        .subscribeOn(Schedulers.io())
        .flatMap(new Function<GroupedFlowable<Integer, Integer>, Publisher<Integer>>() {
            @Override
            public Publisher<Integer> apply(GroupedFlowable<Integer, Integer> g) throws Exception {
                Publisher<Integer> it = g.observeOn(Schedulers.computation()).doOnNext(i -> {
                    System.out.println(Thread.currentThread().getName());
                });
                Thread.sleep(1000);
                return it;
            }
        })
        .subscribe();

输出:
RxComputationThreadPool-1
RxComputationThreadPool-2

以上的结果是符合我们期望的,数据根据模 2 的剩余类划分了两组,每组的数据的分发在不同的线程中,但是我们在上面的代码后面追加以下的代码执行:

...
Thread.sleep(1500);
int core = Runtime.getRuntime().availableProcessors();
for (int i = 0; i < core - 1; i++) {
    scheduler.createWorker();
}

输出:
RxComputationThreadPool-1
RxComputationThreadPool-1

为什么发生这样的情况呢,首先我们在每个数据源observeOn后,休眠一秒,随后这个Flowable会被立即订阅,触发createWorker,我们下面的代码休眠了 1.5 秒,即处于第一个Flowable被订阅后触发了createWorker,第二个Flowable尚未被订阅时,我们又分配了core - 1个的Worker,因此groupBy分配的下个Worker的线程又和第一个分配的相同了。注意这里我们说的是依赖的线程相同,但是每个Worker对象都是独立的,具体原因在上面链接的系列第二篇中详细讲述过。

而在parallelWorker是连续分配的,因此不受这种情况的干扰,有兴趣的读者们可以自己尝试一番。

结语

Parallel 在改版后,确实是 RxJava2 中并发的不二选择。配合内置的操作符能够让大家收放自如,不再受并发的困扰。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 158,560评论 4 361
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 67,104评论 1 291
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 108,297评论 0 243
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 43,869评论 0 204
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 52,275评论 3 287
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 40,563评论 1 216
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 31,833评论 2 312
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 30,543评论 0 197
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 34,245评论 1 241
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 30,512评论 2 244
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 32,011评论 1 258
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 28,359评论 2 253
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 33,006评论 3 235
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 26,062评论 0 8
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 26,825评论 0 194
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 35,590评论 2 273
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 35,501评论 2 268

推荐阅读更多精彩内容