240 发简信
IP属地:北京
  • sparkSql外部数据源

    1、读取json 2、读取csv和tsv 3、ObjectFile 4、读取hdfs中的数据 5、读取Parquet文件 6、读取Hive 和m...

  • Resize,w 360,h 240
    Flume

    总结 一、Flume的定义 1、flume的优势 2、flume的组成 3、flume的架构 二、 flume部署 1、上传并解压 2、修改配置...

  • Resize,w 360,h 240
    【网站点击流数据分析】04-数据预处理

    1、主要目的 1、过滤“不合规”数据2、格式转换和规整3、根据后续的统计需求,过滤分离出各种不同主题(不同栏目path)的基础数据 2、实现方式...

  • Resize,w 360,h 240
    【网站点击流数据分析】03-数据采集

    1、需求 数据采集的需求广义上来说分为两大部分。 1)是在页面采集用户的访问行为,具体开发工作: 开发页面埋点js,采集用户访问行为 后台接受页...

  • Resize,w 360,h 240
    【网站点击流数据分析】02-整体技术流程及架构

    1、数据处理流程 该项目是一个纯粹的数据分析项目,其整体流程基本上就是依据数据的处理流程进行,依此有以下几个大的步骤:1.1.数据采集 首先,通...

  • Resize,w 360,h 240
    【网站点击流数据分析】01-项目业务背景(了解)

    1、什么是点击流数据 1.1、WEB访问日志 即指用户访问网站时的所有访问、浏览、点击行为数据。比如点击了哪一个链接,在哪个网页停留时间最多,采...

  • Sqoop

    个人总结sqoop的作用 1 Sqoop概述 Sqoop是一个用于在Hadoop和关系数据库服务器之间传输数据的工具。它用于从关系数据库(如My...

  • Resize,w 360,h 240
    MapReduce

    MapReduce模型 MapReduce采用“分而治之”策略,一个大规模数据集进行分片,多个Map任务并行处理。实现“计算向数据靠拢”理念,而...