作者:蚂蚁金服数据中台技术专家-王飞(必武)整理:平凡的世界-zkx,转载请注明出处。 第一节会介绍一下数据仓库的基本理论第二节给大家介绍一下基...
1.数据倾斜 什么是数据倾斜 在单个节点任务所处理的数据量远大于同类型任务所处理的数据量,导致该节点成为整个作业的瓶颈,这是分布式系统不可能避免...
工作中常用的 hive 参数调优,整理如下。原则:• 最少数据• 最少字段• 最少Job数• 最少读取次数• 避免数据倾斜• 整体最优而不是局部...
简介: 本文主要介绍 Flink on Yarn/K8s 的原理及应用实践,文章将从 Flink 架构、Flink on Yarn 原理及实践、...
1 配置内存 操作场景 Flink是依赖内存计算,计算过程中内存不够对Flink的执行效率影响很大。可以通过监控GC(Garbage Colle...
广播状态被引入以支持这样的用例:来自一个流的一些数据需要广播到所有下游任务,在那里它被本地存储,并用于处理另一个流上的所有传入元素。 作为广播状...
flink 1.12.2hudi 0.9.0 一、组件下载 1.1、flink1.12.2编译包下载: https://mirrors.tuna...
大数据的典型特征,包括数据量大、数据类型多、价值密度低等,而具备这样特征的数据,在进入到存储阶段时,就需要根据数据类型及场景,来匹配适当的数据存...
Flink8种分区策略有哪几种? 源码解读: ShufflePartitioner: DataStream => DataStream Reba...