大数据小同学

IP属地：重庆

Spark 内核概述
Spark内核泛指Spark的核心运行机制，包括Spark核心组件的运行机制、Spark任务调度机制、Spark内存管理机制、Spark核心功能...

348 0 0
SparkStreaming之DStream转换
DStream上的原语与RDD的类似，分为Transformations（转换）和Output Operations（输出）两种，此外转换操作中...

622 0 0

SparkStreaming之Dstream创建
Spark Streaming原生支持一些不同的数据源。一些“核心”数据源已经被打包到Spark Streaming 的 Maven 工件中，而...

562 0 0
SparkStreaming之Dstream入门
WordCount案例实操需求：使用netcat工具向9999端口不断的发送数据，通过SparkStreaming读取端口数据并统计不同单词出...

381 0 0
Spark Streaming概述
Spark Streaming是什么 Spark Streaming用于流式数据的处理。Spark Streaming支持的数据输入源很多，例如...

520 0 0
SparkSQL实战
数据说明数据集是货品交易数据集每个订单可能包含多个货品，每个订单可以产生多次交易，不同的货品有不同的单价加载数据 tbStock： tbS...

496 0 0
SparkSQL数据源之Hive数据库
Apache Hive是Hadoop上的SQL引擎，Spark SQL编译时可以包含Hive支持，也可以不包含。包含Hive支持的Spark S...

1008 0 0

SparkSQL数据源之通用加载/保存方法/JSON文件/Parquet文件/JDBC
手动指定选项 Spark SQL的DataFrame接口支持多种数据源的操作。一个DataFrame可以进行RDDs方式的操作，也可以被注册为临...

993 0 0
SparkSQL编程之用户自定义函数
IDEA创建SparkSQL程序 IDEA中程序的打包和运行方式都和SparkCore类似，Maven依赖中需要添加新的依赖项程序如下：用户...

358 0 0