todd5167 - 简书

todd5167

IP属地：北京

spark 3.2 reuse pvc 功能改造
背景 spark reuse pvc feature PVC: PersistentVolumeClaim[https://kubernete...

280 0 0
hudi mor表数据读取
hudi 数据读取以 fileSlice 为单位读取, 依次将 fileSlice 的basefile、logfile数据加载到内存根据新旧数...

923 0 0

HoodieClient、HoodieTable、ActionExecutor 数据写入
HoodieTable 定义了写hudi 表依赖的组件及对表操作API(upsert、delete等)，根据不同操作创建BaseActionE...

1104 0 0
hudi 数据写入中的生产者-消费者模式
生产者-消费者模式用来协调数据生产和消费速度不一致问题，在hudi中数据写入时非常依赖该设计模式，且中间涉及一些比较好用的工具类可以直接拿来用，...

272 0 0
HoodieWriteHandle 数据写入处理
项目中使用Flink SQL 将离线数据、流数据写入Hudi，自下而上分析写hudi的流程。hudi 版本0.10.0-patch。 Hoodi...

0.2 433 0 2
Flink CDC 2.0 批流融合技术原理分析
8月份 FlinkCDC 发布2.0.0版本，相较于1.0版本，在全量读取阶段支持分布式读取、支持checkpoint，且在全量 + 增量读取的...

1.1 2737 0 8
Flink SQL 扩展维表 Keyby 的三种实现方式
背景 Flink LookupTableSource 通过使用流数据的一列或者多列的值，加载外部存储数据（维表数据），进而完成对流数据的字段扩展...

0.5 3572 0 6

Flink Streaming File Sink
背景 Flink 支持将流数据以文件形式存储到外部系统，典型使用场景是将数据写入Hive表所在 HDFS存储路径，通过Hive 做查询分析。随着...

0.6 3190 0 6
Flink 分布式缓存原理及使用
背景在1.9.1版本中分布式缓存并未拷贝HDFS下的文件到TM，运行时抛出如下异常。升级到1.10.1版本，能正常使用。借此，学习下Flin...

0.6 1907 0 2