12 Beam 之 pipeline

这篇总结来自极客时间专栏《大规模数据处理实践》的 26-29 节。

这几篇文章都是了解性质、偏基础的文章,并没有太多的深度,而且内容其实跟 Flink/Spark 很相似,有兴趣的可以自行阅读:

  1. 26 节:这里 Pipeline 实际上就类似于一个作业的处理逻辑,类似于作业物理执行计划图,这一章也介绍了处理过程中的容错实现,跟 Spark 的都很相似;
  2. 27 节:Pipeline IO,主要是告诉我们如何在 Beam 自定义输入输出插件,这个其实也比较简单;
  3. 28 节:介绍构建了 Pipeline 时的几种设计模式,也是分为 复制、过滤、分离等,跟前面 Spark 的基本一样;
  4. 29 节:介绍如何本地测试 Beam Pipeline,实际上使用 DirectRunner
    来在本地运行 pipeline,这个跟 Flink 中的 miniCluster 优点像。

其实,通过这些章节也可以看出,目前的数据处理框架在设计上都是互相借鉴的,可以互相看到彼此的影子,这也是目前处理框架逐渐趋于成熟的标志,当然 Beam 并不是一个框架,Beam 像把 Flink、Spark 都作为其的一个 Runner 来运行,但实际上 Spark 和 Flink 都有自己完善的 SQL、高阶 API,。

有兴趣的同学,可以通过下面的链接购买,会有一些优惠

二维码扫描购买有一定优惠

推荐阅读更多精彩内容