240 发简信
IP属地:上海
  • Spark2.1和2.2 SQL物理执行策略之Join源码分析以及不同类型Join区分

    1. object ExtractEquiJoinKeys 一个模式匹配,官方注释是: A pattern that finds joins w...

  • Spark2.1和2.2 SQL物理执行策略关键源码分析

    1. 文章开始之前 先附上一句SQL,使用tpc-ds的表结构,我们围绕这句SQL讲。 SQL: SQL> selectavg(cs_ext_d...

  • Storm的可靠性与ack机制

    无论是实时处理还是离线处理,都会遇到一个不可避免的问题是,失败任务如何重做?Storm提供了一个ack机制。首先来看一下ISpout接口的方法。...

  • Python爬虫简单笔记之BeautifulSoup4的简单用法

    本文首发:http://blog.orisonchan.cc/2018/08/16/44 记录一下Python爬虫常用库BeautifulSou...

  • 常见“树”概念解析(1)

    树是许多成熟的项目所使用的基本数据结构,也是面试常考、程序员必备的重中之重。 1 底层基础概念 1.1 平衡树 所谓平衡树的平衡,就是树上某节点...

  • Spark聚合下推思路以及demo

    Spark原本预计在2.3版本实现聚合下推,虽然不知道是何原因最终没有能够在2.3版本最终实现,但是因为工作需要,必须要从聚合函数下手优化Spa...

    0.4 2051 2 11
  • Hadoop 集中式的缓存管理demo

    参考文献: http://www.infoq.com/cn/articles/hdfs-centralized-cache https://bl...

  • 关于Kafka远程生产和消费的额外说明

    网上有太多此类帖子,然而本帖比他们全面。 背景 有一台阿里云服务器A,用作测试服务器,一台华为服务器B,用作生产服务器。均搭建相同配置和版本Ap...

  • 记一次阿里云磁盘挂载

    其实本来磁盘挂载这件事情已经做过很多次了,但是从来没有一个详细的记录。借有次机会,做个记录。 背景 因为做一些自己的项目对服务器的依赖越来越大,...

个人介绍
大数据硕士码农一枚。兼小公关狗。干过学生会,做过社长,挂过科,也拿过国奖。目前就职于五十强某企业的大数据部门。