Spark是一种基于内存计算的计算引擎(通俗地说就是计算速度快),由于其可以将计算的中间结果存放在内存中,因此非常适合于迭代计算和交互式查询。 ...
Redis,全称Remote Dictionary Server,本质上是一种key-value数据库,其可以基于内存,亦可持久化,是一款开源的...
spark是一个非常好用的大数据分布式计算框架。套话不多说,直接进入正题。spark的开发和测试中经常会使用spark submit脚本将编写好...
虚拟机和和沙盒具有很多相同的特点,因而容易混淆。在讨论虚拟机和沙盒区别之前,我们先来看下一般计算机的大致结构(在一个很高的抽象层次上)。 一般的...
转载请注明出处https://www.jianshu.com/p/88f920936edc,谢谢! 一、 爬虫用途和本质: 网络爬虫顾名思义即模...
今年 Flink 火的一塌糊涂,一些大厂比如阿里巴巴也都开始使用 Flink 构建实时数据仓库。 一、什么是 Flink ? 1.1 批处理和流...
一、Spark 的序列化 序列化Spark 是一个高性能、分布式的、基于内存计算的计算引擎,Spark 集群中包含多个节点,各节点之间要进行通信...
一、背景 1.1 为什么引入Hive? 最初提出Hive的主要目的在于:降低使用MapReduce完成查询任务的技术门槛。在RDBMS中,开发人...
Flink V1.9 官方中文文档地址:https://ci.apache.org/projects/flink/flink-docs-rele...