zfylin - 简书

zfylin

IP属地：福建

数据仓库之拉链表
拉链表拉链表是针对数据仓库设计中表存储数据的方式而定义的，顾名思义，所谓拉链，就是记录历史。记录一个事物从开始，一直到当前状态的所有变化的信息...

0.9 12336 0 18
美团点评 Flink 实时数仓经验分享[转]
原文地址实时数仓建设目的解决传统数仓的问题实时数仓是一个很容易让人产生混淆的概念。实时数仓本身似乎和把 PPT 黑色的背景变得更白一样，从...

2.4 981 0 14

Flink入门-基础概念
Apache Flink 是一个分布式大数据处理引擎，可对有界数据流和无界数据流进行有状态或无状态的计算，能够部署在各种集群环境，对各种规模大小...

1.1 750 0 9
Delta Lake 尝鲜
Delta Lake 是一个存储层，为 Apache Spark 和大数据 workloads 提供 ACID 事务能力，其通过写和快照隔离之间...

2.3 9617 2 8
JAVA中的SPI机制
介绍 SPI（Service Provider Interface），是JDK内置的一种服务提供发现机制，可以用来启用框架扩展和替换组件。机制...

0.6 320 0 7
Flink内存配置
前言本文介绍的内存配置方法只适用于Flink 1.10及以上版本。相关配置详细说明: Flink Config 配置 Flink 进程的内...

0.4 6849 2 7
数据湖(DataLake)
数据湖概念是2011年提出来的，最初数据湖是数据仓库的补充，是为了解决数据仓库漫长的开发周期，高昂的开发、维护成本，细节数据丢失等问题出现的。数...

0.9 7954 0 7

工厂模式
工厂模式是我们最常用的实例化对象模式了，是用工厂方法代替new操作的一种模式。通常我们所说的工厂模式是指工厂方法模式，它也是使用频率最高的工厂模...

0.4 1270 0 7
基于Spark的Druid 索引任务（druid-spark-batch）
1. 前言随着Druid上的DataSource的数量和数据量增加，使用原来的 Hadoop MR索引任务已经不能满足对大数据量写入Druid...

0.6 3619 0 7