240 发简信
IP属地:辽宁
  • MapReduce 案例之Top N

    MapReduce 案例之Top N 1. Top N Top-N 分析法是指从研究对象中得到所需的 N 个数据,并对这 N 个数据进行重点分析...

  • Kafka消费者:读消息从Kafka

    前言 读完本文,你将了解到如下知识点: kafka 的消费者 和 消费者组 如何正确使用kafka consumer 常用的 kafka con...

  • Resize,w 360,h 240
    Hive的分桶详解

    Hive分桶通俗点来说就是将表(或者分区,也就是hdfs上的目录而真正的数据是存储在该目录下的文件)中文件分成几个文件去存储。比如表buck(目...

  • Resize,w 360,h 240
    Spark运行原理

    本文主要分以下章节: 一、Spark专业术语定义 二、 Spark的任务提交机制 一、Spark专业术语定义 1、Application:Spa...

  • Resize,w 360,h 240
    wordcount详解shuffle机制

    本文主要以wordcount为例详细阐述shuffle的实现过程 一、map方法执行之前 我们知道,HDFS里的文件是分块存放在Datanode...

  • Resize,w 360,h 240
    Hadoop之金庸江湖人物关系网分析

    项目设计目的 通过一个综合数据分析案例:”金庸的江湖——金庸武侠小说中的人物关系挖掘“,来学习和掌握MapReduce程序设计。通过本项目的学习...

  • 简书用户动态信息爬虫

    第一步 爬取简书推荐用户 爬取简书推荐用户,加入到用户信息表(第一批用户) 第二步 从推荐用户出发,爬取每个推荐用户的全部粉丝,加入到用户信息表...

  • Resize,w 360,h 240
    flume+kafka+Storm+mysql+ssm+高德地图热力图项目需求

    一、概述 本篇文章主要介绍如何使用Storm + flume + Kafka 实现实时数据的计算,并且使用高德地图API实现热力图的展示。 背景...

  • Kafka0.8集群部署与shell命令行操作

    1、kafka简介在流式计算中,Kafka一般用来缓存数据,Storm通过消费Kafka的数据进行计算。KAFKA + STORM +REDIS...