大数据技术与数仓

IP属地：吉林

实时数仓|基于Flink1.11的SQL构建实时数仓探索实践
实时数仓主要是为了解决传统数仓数据时效性低的问题，实时数仓通常会用在实时的OLAP分析、实时的数据看板、业务指标实时监控等场景。虽然关于实时数仓...

4.2 1572 1 14
该如何设计数仓的汇总层(DWS)
关于数据仓库的分层，似乎大家都有一个共同的认识。但涉及到每一层该如何去建模，可能每个人都有自己的理解。数据建模，毫无疑问是数仓建设的重中之重，然...

1.1 1334 0 11

第八篇|Spark SQL百万级数据批量读写入MySQL
Spark SQL读取MySQL的方式 Spark SQL还包括一个可以使用JDBC从其他数据库读取数据的数据源。与使用JdbcRDD相比，应优...

3.4 2053 0 11
篇二|什么是ClickHouse的表引擎?
在上一篇分享中，我们介绍了ClickHouse的安装部署和简单使用。本文将介绍ClickHouse中一个非常重要的概念—表引擎(table en...

0.7 5572 0 11
项目实践|基于Flink的用户行为日志分析系统
用户行为日志分析是实时数据处理很常见的一个应用场景，比如常见的PV、UV统计。本文将基于Flink从0到1构建一个用户行为日志分析系统，包括架构...

5.1 1255 1 11
篇五|ClickHouse数据导入(Flink、Spark、Kafka、MySQL、Hive)
本文分享主要是ClickHouse的数据导入方式，本文主要介绍如何使用Flink、Spark、Kafka、MySQL、Hive将数据导入Clic...

0.9 1543 1 9
经典Hive SQL面试题
第一题需求实现数据准备查询SQL 第二题需求实现数据准备查询SQL实现第三题需求实现数据准备查询SQL 第四题需求 ...

2.8 2381 0 9

第十篇SparkStreaming手动维护Kafka Offset的几种方式
Spark Streaming No Receivers 方式的createDirectStream 方法不使用接收器，而是创建输入流直接从Ka...

0.6 642 0 8
Flink on Hive构建流批一体数仓
Flink使用HiveCatalog可以通过批或者流的方式来处理Hive中的表。这就意味着Flink既可以作为Hive的一个批处理引擎，也可以通...

1.2 1113 2 6