240 发简信
IP属地:广东
  • clickhouse部署流程

    一、概述 clickhouse是一个数据库管理系统,对于数据的读写、存储、查询、修改、复制、事务、效率等有其独特的方法架构论;另外它是列式存储的,将一列数据作为最小的存储单元...

  • shopee大数据sre面经

    背景 我对shopee是有一些情怀在里面的,早在17年的时候我就面试过它们的大数据岗位(base新加坡),年少轻狂的我当时没有针对性的好好复习,且项目积累的也不够,导致第二轮...

  • 腾讯大数据sre面经

    面试总览 腾讯的面试流程慢是出了名的,技术面一共三面加hr面总共4面,历时一个半月,倘若要想拿到offer还得加上两周,差不多2个月时间,所以各位有志去鹅厂的同学们一定不要裸...

  • 大数据运维面试总结

    一、前言 “金三银四”跳槽季,我成功的入职了自己理想的公司(深圳shopee)。在这里给大家分享下这段时间的真实体验,也给即将跑路或者有想法的同学借鉴一下。 二、过程 1、俗...

  • 你这配置有一点需要更正的,不然策略会报错,<move_factor>0.2</move_factor>这个tag要放到</volumes>外面

    配置clickhouse冷热数据分离

    在 config.d 中加入如下配置 配置存储目录 配置存储策略 在创建表时引用数据存储策略

  • lzo格式的文件是splitable的哈。

    黑猴子的家:MapReduce数据压缩

    1、概述 压缩技术能够有效减少底层存储系统(HDFS)读写字节数。压缩提高了网络带宽和磁盘空间的效率。在Hadood下,尤其是数据规模很大和工作负载密集的情况下,使用数据压缩...

  • 可以的,你看下你们的spark日志的格式压缩没,dr-elephant默认去找压缩过的snappy文件,找不到的话没法分析spark的任务。

    Dr. Elephant 使用文档

    1. 引言 Dr. Elephant 由 LinkedIn 于 2016 年 4 月份开源,是一个 Hadoop 和 Spark 的性能监控和调优工具。Dr. Elephan...

  • 120
    hue集成sentry后添加用户操作流程

    一、前言 我们都知道hue+sentry可以管理hive的用户以及权限,但是其中有几个概念必须要要弄明白:1、hue的用户以及用户组是独立的,跟hive没有关系,hive没有...

  • 分析hdfs文件变化及监控小文件

    1、文档编写目的 目前各个企业都在利用Hadoop大数据平台,每天都会通过ETL产生大量的文件到hdfs上,如何有效的去监测数据的有效性,防止数据的无限增长导致物理资源跟不上...

  • 120
    presto升级操作文档

    1、前言 由于presto基于内存计算,相比较与hive(on spark)有更好的交互查询体验,组织决定使用presto作为主要的交互查询工具,hive作为跑批使用。有个问...

  • 120
    Dr. Elephant 使用文档

    1. 引言 Dr. Elephant 由 LinkedIn 于 2016 年 4 月份开源,是一个 Hadoop 和 Spark 的性能监控和调优工具。Dr. Elephan...

  • 120
    Dr-elephant安装说明文档

    Dr-elephant安装说明文档 1. 前言 “大象医生”是LinkedIn推出的一款Hadoop和Spark性能调节工具,它能够自动收集Hadoop平台所有的度量标准,并...

  • 轻松理解 Java开发中的依赖注入(DI)和控制反转(IOC)

    黄洪清 497915580atqq.com简书首发 前言 关于这个话题, 网上有很多文章,这里, 我希望通过最简单的话语与大家分享.依赖注入和控制反转两个概念让很多初学这迷惑...

  • 想问下,老哥你们生产上有用到这个Dr. Elephant东西吗,我编译出来最新的版本是2.1.7,但是始终收集不到spark的job状态

    Hadoop和Spark性能监控工具Dr. Elephant的编译、部署及使用

    Dr. Elephant是linkedin开源的mapreduce和spark作业的性能监控及调优工具, 它开发了可插拔式的启发式规则来诊断mapreduce和spark作业...

  • 120
    Hue中下载CSV数据转化为Excel

    前言 目前的Hue工具,出现了不能下载Excel数据的情况。这是因为Hue有自己的保护机制,当用户使用Hue下载Excel数据时,Hue会将所有的数据都收集到一台服务器上,这...

  • hive修复分区表分区

    应用场景 如果事先建立了一张分区表,然后手动(比如使用 cp 或者 mv )将分区数据拷贝到刚刚新建的表进行数据初始化;但是对于分区表,需要在hive里面手动将刚刚初始化的数...