Spark 应用场景示例

Spark 应用场景示例

Spark 项目搭建

环境介绍

框架 版本
Centos 7
Java 8
Scala 2.11.12
SBT 1.0
Spark 2.3.0
IDEA plugin Scala

准备工作

  • 搭建一个Standalone模式的Spark 集群

在本地搭建开发环境时,不需要搭建Spark集群环境,在MasterUrl使用local[n]可以代替。
local[n]自动配置了n个本地的Spark副本,与集群环境差异不大,且对本地调试友好。

  • 搭建Kafka服务器

新建项目

使用IDE新建Scala 或 Java 工程,确保项目结构符合Maven推荐的项目结构。

以IDEA为例:

  1. 新建工程 -- Scala -- sbt (需要安装Scala 插件) ,选择Scala版本为2.11.*,Spark最新仅支持此版本。也可稍后再更改Scala版本。

  2. 引入Spark依赖,此时build.sbt文件如下

name := "spark-scala"

version := "1.0"
// 这里可以更改Scala版本
scalaVersion := "2.11.12"
// Spark Sql 依赖,其中包含了 Spark core 等核心依赖
libraryDependencies += "org.apache.spark" % "spark-sql" % "2.3.0"
  1. 运行sbt update更新依赖

场景-静态数据(Spark SQL)

从静态数据源(Parquet,Json,CVS,JDBC,Hive,RDDs)读取数据,运行分析

resource目录构建一个Json数据源data.json:

注意: Spark 仅支持如下格式的Json文件,不支持Standard Json即常规json格式文件。每行一条数据记录。

{"name": "001", "age": 10, "gender": 0,"jobs":["joba","jobb"]}
{"name": "002", "age": 19, "gender": 1}
{"name": "003", "age": 13, "gender": 2}

新建Static Data Spark Demo.scala:

package cn.fatalc.spark

import org.apache.spark.SparkConf
import org.apache.spark.sql.SparkSession

object StaticDataSparkDemo {
  def main(args: Array[String]): Unit = {

    val sparkConf = new SparkConf setMaster "local[2]"

    val sparkSession = SparkSession
      .builder
      .config(sparkConf)
      .appName("static data spark")
      .getOrCreate()

    // 从数据源读取数据

    val path = ClassLoader getSystemResource "data.json" toString
    val data = sparkSession.read.json(path.toString)

    data.show()
    data.filter("age > 10").show()

    // 创建临时表
    data.createOrReplaceTempView("person")

    sparkSession.sql("select * from person where age > 10").show()
  }
}

以上,我们拟对数据进行展示和基本的筛选工作(age > 10)

开启调试,可以看到log中Spark执行了 3 个Job,并已经正确输出了预期的结果。

18/04/03 14:45:23 INFO DAGScheduler: Job 1 finished: show at StaticDataSparkDemo.scala:22, took 0.096747 s
+---+------+------------+----+
|age|gender|        jobs|name|
+---+------+------------+----+
| 10|     0|[joba, jobb]| 001|
| 19|     1|        null| 002|
| 13|     2|        null| 003|
+---+------+------------+----+
...
18/04/03 14:45:24 INFO DAGScheduler: Job 2 finished: show at StaticDataSparkDemo.scala:23, took 0.391123 s
+---+------+----+----+
|age|gender|jobs|name|
+---+------+----+----+
| 19|     1|null| 002|
| 13|     2|null| 003|
+---+------+----+----+
...
18/04/03 14:45:25 INFO DAGScheduler: Job 3 finished: show at StaticDataSparkDemo.scala:28, took 0.196013 s
+---+------+----+----+
|age|gender|jobs|name|
+---+------+----+----+
| 19|     1|null| 002|
| 13|     2|null| 003|
+---+------+----+----+

接下来就可以根据需求进行更复杂的数据处理操作

场景-流式数据(Spark Stream)

从Kafka、Flume、S3/HDFS、kinesis、Twitter等数据源读取数据进行实时分析

例:从Kafka读取流数据,进行实时处理。

开始之前

由于读取Kafka流式数据,我们需要模拟kafka流。

  1. 需要搭建本地Kafka服务器
  2. 需要有持续的流数据

搭建Kafka服务器

参考Kafka文档

新建SpringBoot项目向Kafaka服务器不断发送数据

核心文件KafkaApplication.java

package cn.fatalc.kafka;

import org.apache.commons.lang.math.RandomUtils;
import org.springframework.beans.factory.annotation.Autowired;
import org.springframework.boot.ApplicationArguments;
import org.springframework.boot.ApplicationRunner;
import org.springframework.boot.SpringApplication;
import org.springframework.boot.autoconfigure.SpringBootApplication;
import org.springframework.kafka.core.KafkaTemplate;

import java.util.HashMap;

@SpringBootApplication
public class KafkaApplication implements ApplicationRunner {

    public static void main(String[] args) {
        SpringApplication.run(KafkaApplication.class, args);
    }

    @Autowired
    KafkaTemplate kafkaTemplate;

    @Override
    public void run(ApplicationArguments args) throws Exception {
        while (true) {
            Thread.sleep(1000);

            HashMap<String, Object> map = new HashMap<>();
            map.put("name", "user" + RandomUtils.nextInt(100));
            map.put("gender", RandomUtils.nextInt(2));

            System.out.println(map.toString());

            kafkaTemplate.send("spark", map.toString());
        }
    }
}

application.yml

spring:
  kafka:
    bootstrap-servers: 127.0.0.1:9092

以上,我们向Kafka服务器的topicsaprk上不断发送数据以模拟数据流。
现在,启动程序开始模拟数据流

处理流数据

复用上例中的目录结构,也可以新建一个sbt项目。

新建文件StreamDataSparkDemo.scala

package cn.fatalc.spark

import org.apache.kafka.common.serialization.StringDeserializer
import org.apache.spark._
import org.apache.spark.streaming._
import org.apache.spark.streaming.kafka010._

object StreamDataSparkDemo {
  def main(args: Array[String]): Unit = {

    val sparkConf = new SparkConf
    sparkConf setMaster "local[2]"
    sparkConf setAppName "StreamDataSparkDemo"

    val kafkaParams = Map[String, Object](
      "bootstrap.servers" -> "192.168.34.179:9092",
      "key.deserializer" -> classOf[StringDeserializer],
      "value.deserializer" -> classOf[StringDeserializer],
      "group.id" -> "spark_group"
    )
    val topics = Array("spark")

    val streamingContext = new StreamingContext(sparkConf, Seconds(1))

    val inputDStream = KafkaUtils.createDirectStream[String, String](
      streamingContext,
      LocationStrategies.PreferConsistent,
      ConsumerStrategies.Subscribe[String, String](topics, kafkaParams)
    )

    inputDStream.foreachRDD(rdd =>{
      rdd.foreach(record => {
        println(record.value())
      })
    } )

    streamingContext.start() 
    streamingContext.awaitTermination()
  }
}

以上,我们从Kafaka服务器读取一个topicspark的流,然后进行展示。

运行程序,输出如下:

18/04/04 14:56:43 INFO AppInfoParser: Kafka version : 0.10.0.1
18/04/04 14:56:43 INFO AppInfoParser: Kafka commitId : a7a17cdec9eaa6c5
18/04/04 14:56:43 INFO CachedKafkaConsumer: Initial fetch for spark-executor-spark_group spark 0 13000
18/04/04 14:56:43 INFO AbstractCoordinator: Discovered coordinator fatal-centos:9092 (id: 2147483647 rack: null) for group spark-executor-spark_group.
18/04/04 14:56:44 INFO JobScheduler: Added jobs for time 1522825004000 ms
{gender=0, name=user83}
{gender=0, name=user52}
{gender=1, name=user96}
{gender=1, name=user92}
{gender=0, name=user58}
{gender=1, name=user27}
{gender=0, name=user47}
{gender=0, name=user98}
{gender=1, name=user77}
{gender=0, name=user15}
{gender=1, name=user10}
{gender=1, name=user53}
{gender=1, name=user57}
{gender=0, name=user94}
{gender=1, name=user59}
{gender=1, name=user80}
{gender=1, name=user97}
{gender=1, name=user71}
{gender=1, name=user35}
{gender=1, name=user46}
{gender=1, name=user19}
{gender=0, name=user34}
18/04/04 14:56:44 INFO Executor: Finished task 0.0 in stage 0.0 (TID 0). 751 bytes result sent to driver
18/04/04 14:56:44 INFO TaskSetManager: Finished task 0.0 in stage 0.0 (TID 0) in 467 ms on localhost (executor driver) (1/1)
18/04/04 14:56:44 INFO TaskSchedulerImpl: Removed TaskSet 0.0, whose tasks have all completed, from pool 
18/04/04 14:56:44 INFO DAGScheduler: ResultStage 0 (foreach at StreamDataSparkDemo.scala:35) finished in 1.062 s

取出数据之后,就可以用于实时分析了。

假设topic spark 为新注册的用户信息,我们可以统计新用户的每实时注册量,以及阶段内新注册用户性别比例。

StreamDataSparkDemo.scala中修改

<未完待续...>

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 159,458评论 4 363
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 67,454评论 1 294
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 109,171评论 0 243
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 44,062评论 0 207
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 52,440评论 3 287
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 40,661评论 1 219
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 31,906评论 2 313
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 30,609评论 0 200
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 34,379评论 1 246
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 30,600评论 2 246
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 32,085评论 1 261
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 28,409评论 2 254
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 33,072评论 3 237
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 26,088评论 0 8
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 26,860评论 0 195
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 35,704评论 2 276
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 35,608评论 2 270

推荐阅读更多精彩内容