240 发简信
IP属地:福建
  • 数据仓库之拉链表

    拉链表 拉链表是针对数据仓库设计中表存储数据的方式而定义的,顾名思义,所谓拉链,就是记录历史。记录一个事物从开始,一直到当前状态的所有变化的信息...

  • Resize,w 360,h 240
    美团点评 Flink 实时数仓经验分享[转]

    原文地址 实时数仓建设目的 解决传统数仓的问题 实时数仓是一个很容易让人产生混淆的概念。实时数仓本身似乎和把 PPT 黑色的背景变得更白一样,从...

    2.4 981 0 14
  • Resize,w 360,h 240
    Flink入门-基础概念

    Apache Flink 是一个分布式大数据处理引擎,可对有界数据流和无界数据流进行有状态或无状态的计算,能够部署在各种集群环境,对各种规模大小...

  • Resize,w 360,h 240
    Delta Lake 尝鲜

    Delta Lake 是一个存储层,为 Apache Spark 和大数据 workloads 提供 ACID 事务能力,其通过写和快照隔离之间...

  • JAVA中的SPI机制

    介绍 SPI(Service Provider Interface),是JDK内置的一种服务提供发现机制,可以用来启用框架扩展和替换组件。 机制...

  • Resize,w 360,h 240
    Flink内存配置

    前言 本文介绍的内存配置方法只适用于Flink 1.10及以上版本。 相关配置详细说明: Flink Config 配置 Flink 进程的内...

  • 数据湖(DataLake)

    数据湖概念是2011年提出来的,最初数据湖是数据仓库的补充,是为了解决数据仓库漫长的开发周期,高昂的开发、维护成本,细节数据丢失等问题出现的。数...

  • Resize,w 360,h 240
    工厂模式

    工厂模式是我们最常用的实例化对象模式了,是用工厂方法代替new操作的一种模式。通常我们所说的工厂模式是指工厂方法模式,它也是使用频率最高的工厂模...

  • 基于Spark的Druid 索引任务(druid-spark-batch)

    1. 前言 随着Druid上的DataSource的数量和数据量增加,使用原来的 Hadoop MR索引任务已经不能满足对大数据量写入Druid...