Avatar notebook default
25篇文章 · 12602字 · 1人关注
  • Resize,w 360,h 240
    Spark 数据读取冷启动优化分析

    有时候会发现即使是读取少量的数据,启动延时可能也非常大,针对该现象进行分析,并提供一些解决思路。 背景 Spark 一次查询过程可以简单抽象为 ...

  • spark-sql-perf

    简介 spark-sql-perf 是一个 spark sql 性能测试框架,可以用来进行一些基准测试。 测试环境: spark 2.4.0 s...

  • Resize,w 360,h 240
    使用 jvm-profiler 分析 spark 内存使用

    背景 在生产环境中,为了提高任务提交的响应速度,我们研发了类似 Spark Jobserver 的服务,各种类型的 spark 任务复用已经启动...

  • Spark Optane IMDT 测试

    简书不支持HTML标签 Spark Optane IMDT 测试

  • 使用 Hibench 对 Spark 进行基准测试

    概述 项目地址: Intel-hadoop/HiBench Hibench 是 Intel 开源的大数据基准测试工具,可以评估不同大数据框架的速...

  • 使用 aspectj 对 spark 进行拦截

    背景 开源产品要想用的得心应手免不了要根据公司的业务/场景对其做一些改造,如果直接在源码的层面对其修改,当下可能用的很省心,但后期与社区代码的合...

  • Resize,w 360,h 240
    PySpark pandas udf

    配置 所有运行节点安装 pyarrow ,需要 >= 0.8 为什么会有 pandas UDF 在过去的几年中,python 正在成为数据分析师...

    0.1 7390 0 12
  • spark 读取 hdfs 数据分区规则

    下文以读取 parquet 文件 / parquet hive table 为例: hive metastore 和 parquet 转化的方式...

  • spark convert RDD[Map] to DataFrame

    将RDD[Map[String,String]] 转化为展平 DataFrame,类似于pyspark 中 dict 结构toDF的效果。 in...

文集作者