240 发简信
IP属地:江苏
  • Spark on Yarn 之Python环境定制

    1 动机 不同用户的应用程序使用的python版本及需要的python依赖可能存在不同,若每次缺少依赖都请op去update所有节点,对于大集群...

  • Spark Streaming Executor DynamicAllocation 机制分析

    —————☼—————☼—————☼—————☼—————☼—————Spark Streaming概述Spark Streaming 初始化过...

  • SparkR on Yarn 安装配制

    刚完成SparkR的支持,顺手记录下流程… 1 编译SparkR 1.1 生成SparkR的lib包 1.2 编译Spark 1.3 local...

  • Resource Manager YGC停顿过长分析

    动机 昨天又收到有同学因数据(代码)问题被rccd的邮件,领导也一再提醒数据的安全问题。于是审视了一下硬盘文件,以免存在无心之过… 审视过程中发...

  • Resize,w 360,h 240
    Spark on Yarn之Executor内存管理

    本文1、2、3节介绍了Spark 内存相关之识,第4节描述了常见错误类型及产生原因并给出了解决方案。 1 堆内和堆外内存规划 Executor ...

  • Resize,w 360,h 240
    External Shuffle Service 引起的NodeManager OOM问题分析

    1 现象描述及初步分析 近期公司yarn集群中存在NodeManager因OOM 而挂掉的情况, 且发生OOM前存在大量的Spark Shuf...

  • Spark Streaming 数据准备阶段分析(Receiver方式)

    —————☼—————☼—————☼—————☼—————☼—————Spark Streaming概述Spark Streaming 初始化过...

  • Spark Streaming概述

    —————☼—————☼—————☼—————☼—————☼—————Spark Streaming概述Spark Streaming 初始化过...

  • Resize,w 360,h 240
    离线多机房方案

    1. 背景 随着公司业务的高速发展,业务数据的生产速度变得越来越快,离线集群规模快速膨胀,既有机房内的机位急剧消耗,在可预见的不久的将来会达到机...