Spark - 文集

Spark

25篇文章 · 12602字 · 1人关注

Spark 数据读取冷启动优化分析
有时候会发现即使是读取少量的数据，启动延时可能也非常大，针对该现象进行分析，并提供一些解决思路。背景 Spark 一次查询过程可以简单抽象为 ...

0.3 1566 0 2
spark-sql-perf
简介 spark-sql-perf 是一个 spark sql 性能测试框架，可以用来进行一些基准测试。测试环境： spark 2.4.0 s...

0.3 2348 0 2

使用 jvm-profiler 分析 spark 内存使用
背景在生产环境中，为了提高任务提交的响应速度，我们研发了类似 Spark Jobserver 的服务，各种类型的 spark 任务复用已经启动...

0.1 1441 0 1
Spark Optane IMDT 测试
简书不支持HTML标签 Spark Optane IMDT 测试

338 0 0
使用 Hibench 对 Spark 进行基准测试
概述项目地址: Intel-hadoop/HiBench Hibench 是 Intel 开源的大数据基准测试工具，可以评估不同大数据框架的速...

5309 1 0
使用 aspectj 对 spark 进行拦截
背景开源产品要想用的得心应手免不了要根据公司的业务/场景对其做一些改造，如果直接在源码的层面对其修改，当下可能用的很省心，但后期与社区代码的合...

0.2 1129 0 3
PySpark pandas udf
配置所有运行节点安装 pyarrow ，需要 >= 0.8 为什么会有 pandas UDF 在过去的几年中，python 正在成为数据分析师...

0.1 7390 0 12

spark 读取 hdfs 数据分区规则
下文以读取 parquet 文件 / parquet hive table 为例： hive metastore 和 parquet 转化的方式...

0.1 6103 1 5
spark convert RDD[Map] to DataFrame
将RDD[Map[String,String]] 转化为展平 DataFrame，类似于pyspark 中 dict 结构toDF的效果。 in...

2415 0 3