240 发简信
IP属地:北京
  • Kafka的零拷贝技术

    kafka中的消费者在读取服务端的数据时,需要将服务端的磁盘文件通过网络发送到消费者进程,网络发送需要经过几种网络节点。如下图所示: 传统的读取...

  • Resize,w 360,h 240
    Structured Streaming:Apache Spark中处理实时数据的声明式API

    引言 随着实时数据的日渐普及,企业需要流式计算系统满足可扩展、易用以及易整合进业务系统。Structured Streaming是一个高度抽象的...

    0.6 3241 2 13
  • Resize,w 360,h 240
    Alluxio:架构及数据流

    1 架构 1.1 概述 Alluxio作为大数据和机器学习生态系统中的一个新的数据访问层,配置在任何持久性存储系统(如Amazon S3、...

  • Resize,w 360,h 240
    一.数据仓库、BI以及维度建模

    信息总是用作两个目的:操作型记录的保存和分析型记录的制定。简单来说,操作型系统保存数据,DW/BI系统使用数据。 对于操作型系统,其用户确保组织...

  • 关于Hive的一些总结

    一.数据类型 hive数据类型包含基本数据类型(int,double...)和集合数据类型(array,map,struct)。 传统数据库是写...

  • Resize,w 360,h 240
    Kafka Connect:构建大型低延迟数据管道

    很长一段时间里,公司所做的大量数据处理工作都是以批量作业形式运行的——从数据库中转储CSV文件、在一天结束时收集日志文件,等等。但是企业的...

  • Resize,w 360,h 240
    Lambda架构

    大数据系统的关键问题:如何实时地在任意大数据集上进行查询?最简单的方法是,直接在全体数据集上运行查询函数得到结果,但是这种方法的计算代码太大,所...

  • Hive的增量更新策略:四步

    1.INCREMENTAL UPDATES Hadoop和Hive正在快速发展,以超越以前集成和数据访问的限制。在近期的开发路线图上,我们...

  • Resize,w 360,h 240
    Alluxio:存储统一与抽象

    大数据系统使得公司和组织可以处理越来越庞大的数据,然而,数据一般存储在多个不同的存储系统中。由于数据存储在不同的系统,其物理位置也可能不同...

个人介绍
阿猫阿狗写字的地方