bigdata张凯翔

IP属地：福建

【开源Spark实战训练营】基于spark快速构建数仓项目
作者：蚂蚁金服数据中台技术专家－王飞（必武）整理:平凡的世界-zkx,转载请注明出处。第一节会介绍一下数据仓库的基本理论第二节给大家介绍一下基...

5.3 3578 0 16
Hive优化(五)-避免数据倾斜
1.数据倾斜什么是数据倾斜在单个节点任务所处理的数据量远大于同类型任务所处理的数据量,导致该节点成为整个作业的瓶颈，这是分布式系统不可能避免...

7.7 2270 0 11

Hive调优参数篇
工作中常用的 hive 参数调优，整理如下。原则：• 最少数据• 最少字段• 最少Job数• 最少读取次数• 避免数据倾斜• 整体最优而不是局部...

6.0 3101 3 10
Apache Flink 进阶（四）：Flink on Yarn/K8s 原理剖析及实践
简介：本文主要介绍 Flink on Yarn/K8s 的原理及应用实践，文章将从 Flink 架构、Flink on Yarn 原理及实践、...

0.8 2482 0 9
Flink性能调优（一）
1 配置内存操作场景 Flink是依赖内存计算，计算过程中内存不够对Flink的执行效率影响很大。可以通过监控GC（Garbage Colle...

3.4 6681 2 7
[Flink BroadcastStream]Flink实战广播流之BroadcastStream
广播状态被引入以支持这样的用例:来自一个流的一些数据需要广播到所有下游任务，在那里它被本地存储，并用于处理另一个流上的所有传入元素。作为广播状...

0.5 4295 0 7
flink集成hudi
flink 1.12.2hudi 0.9.0 一、组件下载 1.1、flink1.12.2编译包下载： https://mirrors.tuna...

0.6 5989 1 6

MongoDB Redis ES Hbase技术选型
大数据的典型特征，包括数据量大、数据类型多、价值密度低等，而具备这样特征的数据，在进入到存储阶段时，就需要根据数据类型及场景，来匹配适当的数据存...

1.0 2129 0 5
07. Flink8种分区策略及源码解读
Flink8种分区策略有哪几种？源码解读: ShufflePartitioner: DataStream => DataStream Reba...

5.3 1830 0 5