240 发简信
IP属地:四川
  • Datax日志压缩并定期清理

    背景 DataX 是一个进程一个日志,不同于其他日志一天一个日志,合并到一个日志中进行压缩在查看日志时有一定的不便,可以通过脚本的方式对目录进行...

  • 为什么会是Flink

    Flink的具体优势有以下几点: 1.同时支持高吞吐、低延迟、高性能 Flink是目前开源社区中唯一一套集高吞吐、低延迟、高性能三者于一身的分布...

  • Resize,w 360,h 240
    解决DataX自定义kuduWriter无法解析Blob类型字段的问题

    在之前的文章中分享如何在DataX中定义kuduWriter组件,在最近的工作中发现从oracle读取blob类型的数据到kudu时,数据不是期...

  • Resize,w 360,h 240
    DataX中的数据交互源码探究

    因为工作的原因,需要排查数据源端到目标端的数据是否丢失,正好有机会研究一下datax的源码.这里我们探索的oracleReader和kuduWr...

  • Resize,w 360,h 240
    Kudu使用最佳实践以及踩坑记录

    Kudu表结构设计最佳实践 1.字段设计 字段数量最好不要超过300个 除主键外,其他字段可以为空 每一个字段均可以设置自己的编码以及压缩方式 ...

  • Resize,w 360,h 240
    如何用DataX自定义KuduWriter插件

    如何用DataX自定义KuduWriter之前,先了解一下什么是DataX,它能做什么事 DataX DataX 是阿里巴巴集团内被广泛使用的离...

  • Resize,w 360,h 240
    Alibaba之jvm-sandbox初体验

    前言 在开始之前,我们先来模拟一下以下的场景:小李:“小明,你的接口没有返回数据,麻烦帮忙看一下?”小明:“我这边的数据也是从别人的服务器中拿到...

  • Resize,w 360,h 240
    Hive相关优化

    map优化 优化并发个数 减少map数,合并小文件set mapred.max.split.size=100000000;单位b,代表一个map...

  • Resize,w 360,h 240
    Hive

    是什么 Hive是一个SQL解析引擎,将SQL语句转译成MapReduce Job,然后在Hadoop平台上运行,达到快速开发的目的。 Hive...