阿猫阿狗Hakuna

IP属地：北京

Kafka的零拷贝技术
kafka中的消费者在读取服务端的数据时，需要将服务端的磁盘文件通过网络发送到消费者进程，网络发送需要经过几种网络节点。如下图所示：传统的读取...

2.1 25865 3 29
Structured Streaming：Apache Spark中处理实时数据的声明式API
引言随着实时数据的日渐普及，企业需要流式计算系统满足可扩展、易用以及易整合进业务系统。Structured Streaming是一个高度抽象的...

0.6 3241 2 13

Alluxio：架构及数据流
1 架构 1.1 概述 Alluxio作为大数据和机器学习生态系统中的一个新的数据访问层，配置在任何持久性存储系统(如Amazon S3、...

1.5 7860 0 9
一.数据仓库、BI以及维度建模
信息总是用作两个目的：操作型记录的保存和分析型记录的制定。简单来说，操作型系统保存数据，DW/BI系统使用数据。对于操作型系统，其用户确保组织...

1.3 1624 0 8
关于Hive的一些总结
一.数据类型 hive数据类型包含基本数据类型（int,double...）和集合数据类型（array,map,struct）。传统数据库是写...

0.3 1906 0 8
Kafka Connect:构建大型低延迟数据管道
很长一段时间里，公司所做的大量数据处理工作都是以批量作业形式运行的——从数据库中转储CSV文件、在一天结束时收集日志文件，等等。但是企业的...

0.4 1588 0 7
Lambda架构
大数据系统的关键问题：如何实时地在任意大数据集上进行查询？最简单的方法是，直接在全体数据集上运行查询函数得到结果，但是这种方法的计算代码太大，所...

0.5 7161 1 6

Hive的增量更新策略：四步
1.INCREMENTAL UPDATES Hadoop和Hive正在快速发展，以超越以前集成和数据访问的限制。在近期的开发路线图上，我们...

0.4 10262 0 5
Alluxio：存储统一与抽象
大数据系统使得公司和组织可以处理越来越庞大的数据，然而，数据一般存储在多个不同的存储系统中。由于数据存储在不同的系统，其物理位置也可能不同...

0.6 973 0 5