Aluha_f289 - 简书

IP属地：北京

数据倾斜解决实例【适用于reduceByKey】

596 0 0
sparkSql外部数据源
1、读取json 2、读取csv和tsv 3、ObjectFile 4、读取hdfs中的数据 5、读取Parquet文件 6、读取Hive 和m...

602 0 0

Flume
总结一、Flume的定义 1、flume的优势 2、flume的组成 3、flume的架构二、 flume部署 1、上传并解压 2、修改配置...

720 0 0
【网站点击流数据分析】04-数据预处理
1、主要目的 1、过滤“不合规”数据2、格式转换和规整3、根据后续的统计需求，过滤分离出各种不同主题(不同栏目path)的基础数据 2、实现方式...

384 0 0
【网站点击流数据分析】03-数据采集
1、需求数据采集的需求广义上来说分为两大部分。 1）是在页面采集用户的访问行为，具体开发工作：开发页面埋点js，采集用户访问行为后台接受页...

564 0 0
【网站点击流数据分析】02-整体技术流程及架构
1、数据处理流程该项目是一个纯粹的数据分析项目，其整体流程基本上就是依据数据的处理流程进行，依此有以下几个大的步骤：1.1.数据采集首先，通...

410 0 0
【网站点击流数据分析】01-项目业务背景（了解）
1、什么是点击流数据 1.1、WEB访问日志即指用户访问网站时的所有访问、浏览、点击行为数据。比如点击了哪一个链接，在哪个网页停留时间最多，采...

700 0 0

Sqoop
个人总结sqoop的作用 1 Sqoop概述 Sqoop是一个用于在Hadoop和关系数据库服务器之间传输数据的工具。它用于从关系数据库（如My...

482 0 0
MapReduce
MapReduce模型 MapReduce采用“分而治之”策略，一个大规模数据集进行分片，多个Map任务并行处理。实现“计算向数据靠拢”理念，而...

382 0 0