• 120
    Spark Join优化-BucketJoin实现

    偶然读取到了字节跳动关于Spark做的一些优化,发现其中一项被称为BuckedtJoin的优化项 传送门:Spark SQL 在字节跳动数据仓库...

    0.1 67 0 1
  • 史上最坑-ES:reindex中routing=cat

    吐槽一个ES-reindex迁移的大坑 在做ES跨集群迁移的时候,用到了ES的reindex进行数据迁移,查了很多资料,包括官方文档,比如: h...

  • 金融笔记-美元潮汐

    最近老比登不顾他国的死活,给自己整了个1.9万亿救助计划及4万亿的基建激励计划。相当于变相赢钱,可能会带来通货膨胀。 而我完全看不懂,也不知道对...

  • 120
    Kafka-百万级吞吐量的秘密?

    Kafka作为一款分布式的消息队列,是如何做到百万级TPS呢?,用了哪些黑科技才能做到如此这般独孤求败呢? 1 页缓存 将磁盘的数据缓存到内存中...

  • Spark-Broadcast的生命周期

    事情起因是一位同事写的SparkStreaming程序,总会出现部分Executor上请求broadcast不成功的错误,鉴于此,我专门走读了一...

  • Spark-窗口函数实现原理及各种写法

    平时使用窗口函数最多的情况就是-根据某个字段分组,取组内的TopN(也可能是随机取N条),在没接触窗口函数之前,使用的是groupByKey+f...

  • Spark3-AQE-数据倾斜Join优化

    Adaptive Query Exection(自适应查询计划)简称AQE,在最早在spark 1.6版本就已经有了AQE;到了spark 2....

  • Pands导出excel

    本文介绍使用Pandas导出Excel,并添加一些简单的格式 1 dataframe.to_excel导出Excel 在一个excel中写入多个...

  • PG的Upsert语法多种实现

    本文使用以下表做测试例子 1 版本9.5 之后 insert on conflict do)。当插入遇到约束错误时,直接返回或者改为执行UPDA...

个人介绍
千万别,墨守成规,埋头苦干不思考;决不能,随便挑拣随身物,那是你品味的延伸;更不能,做事无条理,没有效率