MapReduce 案例之Top N 1. Top N Top-N 分析法是指从研究对象中得到所需的 N 个数据,并对这 N 个数据进行重点分析...
前言 读完本文,你将了解到如下知识点: kafka 的消费者 和 消费者组 如何正确使用kafka consumer 常用的 kafka con...
Hive分桶通俗点来说就是将表(或者分区,也就是hdfs上的目录而真正的数据是存储在该目录下的文件)中文件分成几个文件去存储。比如表buck(目...
本文主要分以下章节: 一、Spark专业术语定义 二、 Spark的任务提交机制 一、Spark专业术语定义 1、Application:Spa...
本文主要以wordcount为例详细阐述shuffle的实现过程 一、map方法执行之前 我们知道,HDFS里的文件是分块存放在Datanode...
项目设计目的 通过一个综合数据分析案例:”金庸的江湖——金庸武侠小说中的人物关系挖掘“,来学习和掌握MapReduce程序设计。通过本项目的学习...
第一步 爬取简书推荐用户 爬取简书推荐用户,加入到用户信息表(第一批用户) 第二步 从推荐用户出发,爬取每个推荐用户的全部粉丝,加入到用户信息表...
一、概述 本篇文章主要介绍如何使用Storm + flume + Kafka 实现实时数据的计算,并且使用高德地图API实现热力图的展示。 背景...
1、kafka简介在流式计算中,Kafka一般用来缓存数据,Storm通过消费Kafka的数据进行计算。KAFKA + STORM +REDIS...