240 发简信
IP属地:北京
  • Resize,w 360,h 240
    spark 3.2 reuse pvc 功能改造

    背景 spark reuse pvc feature PVC: PersistentVolumeClaim[https://kubernete...

  • hudi mor表数据读取

    hudi 数据读取以 fileSlice 为单位读取, 依次将 fileSlice 的basefile、logfile数据加载到内存根据新旧数...

  • Resize,w 360,h 240
    HoodieClient、HoodieTable、ActionExecutor 数据写入

    HoodieTable 定义了写hudi 表依赖的组件及对表操作API(upsert、delete等),根据不同操作创建BaseActionE...

  • Resize,w 360,h 240
    hudi 数据写入中的生产者-消费者模式

    生产者-消费者模式用来协调数据生产和消费速度不一致问题,在hudi中数据写入时非常依赖该设计模式,且中间涉及一些比较好用的工具类可以直接拿来用,...

  • Resize,w 360,h 240
    HoodieWriteHandle 数据写入处理

    项目中使用Flink SQL 将离线数据、流数据写入Hudi,自下而上分析写hudi的流程。hudi 版本0.10.0-patch。 Hoodi...

  • Resize,w 360,h 240
    Flink CDC 2.0 批流融合技术原理分析

    8月份 FlinkCDC 发布2.0.0版本,相较于1.0版本,在全量读取阶段支持分布式读取、支持checkpoint,且在全量 + 增量读取的...

  • Resize,w 360,h 240
    Flink SQL 扩展维表 Keyby 的三种实现方式

    背景 Flink LookupTableSource 通过使用流数据的一列或者多列的值,加载外部存储数据(维表数据),进而完成对流数据的字段扩展...

  • Resize,w 360,h 240
    Flink Streaming File Sink

    背景 Flink 支持将流数据以文件形式存储到外部系统,典型使用场景是将数据写入Hive表所在 HDFS存储路径,通过Hive 做查询分析。随着...

  • Resize,w 360,h 240
    Flink 分布式缓存原理及使用

    背景 在1.9.1版本中分布式缓存并未拷贝HDFS下的文件到TM,运行时抛出如下异常。 升级到1.10.1版本,能正常使用。借此,学习下Flin...