什么是Ray 之前花了大概两到三天把Ray相关的论文,官网文档看了一遍,同时特意去找了一些中文资料看Ray当前在国内的发展情况(以及目前国内大部...

什么是Ray 之前花了大概两到三天把Ray相关的论文,官网文档看了一遍,同时特意去找了一些中文资料看Ray当前在国内的发展情况(以及目前国内大部...
Delta Lake 是什么?简单的说就是为大数据场景添加了事务功能,并且支持了 update/delete/merge into 等功能, D...
Delta 0.5 已于上周发布,增加了不少新特性,这篇文章主要讲解其 Presto Integration 和 Manifests 机制。该功...
本场视频链接:https://developer.aliyun.com/live/1548?spm=a2c6h.12873581.0.0.716...
前言 Spark YarnShuffleService是作为Hadoop Yarn模块中NodeManager的辅助服务寄生在其进程内部,大家都...
数据本地性是 Spark 等计算引擎从计算性能方面去考量的一个重要指标,对于某个数据分片的运算,Spark 在调度侧会做数据本地性的预测,然后尽...
预聚合是高性能分析中的常用技术,例如,每小时100亿条的网站访问数据可以通过对常用的查询纬度进行聚合,被降低到1000万条访问统计,这样就能降低...
什么是 ConfigMap 顾名思义,用来存配置的Map,可以存单个配置或者配置文件,在 POD 中我们可以通过环境变量来访问单个配置和配置文件...
漫谈Spark内存管理(一)有提到问题:“ Spark中用到内存的地方有哪些?存储内存主要消耗在哪些地方?执行内存主要消耗在哪些地方?”。本文就...
原文 前段时间工作中踩到SPARK-21444的坑,这里做个记录。 1 场景描述 我们的一个spark app在正常运行几个月后经常出现driv...
专题公告
Spark深入学习专题旨在通过高质量的文章对Spark相关技术进行研究学习