Spark实时统计订单量

前言

本人GitHub地址：https://github.com/guofei1219
QQ : 86608625
咨询项目相关问题的请直接说明问题，不要一直问在吗？还在吗？等问题，博主QQ一直健在呢，由于本人平时还要工作，问题不能及时回复请见谅！！！

背景

用户下单数据会通过业务系统实时产生入库到mysql库，我们要统计通某个推广渠道实时下单量，以便线上运营推广人员查看不同渠道推广效果进而执行不同推广策略

系统架构

架构图

注：组件不了解的同学可参考其他文章，本文主要讲项目的实现
1、某些同学会问，直接在业务系统加入JS埋点通过发日志不更好吗？
答：第一、JS埋点业务系统涉及产品改造，不可能因为一个需求让你去随便改业务系统。第二、即使加入JS埋点也不可能获得业务系统的全部数据。所以业务系统核心数据还得去业务系统库获取。

2、还有人问加入Kafka太多余
答：第一、加入Kafka为了使系统扩展性更强，可方便对接各种开源产品。第二、通过Kafka消息组可使同一条消息被不同Consumer消费，用户离线和实时两条线。

解析Mysql binlog日志

主要逻辑

1.创建Canal连接
2.解析Mysql binlog获得insert语句

public static void main(String args[]) {
    //第一个参数为Canal server服务IP地址如果使用windows开发连接linux Canal服务需要制定IP eg: new InetSocketAddress("192.168.61.132", 11111)
    //第二个参数为Canal server服务端口号 Canal server IP和端口号在 /conf/canal.properties中配置
    //第三个参数为Canal instance名称 /conf下目录名称
    //第四第五个参数为mysql用户名和密码，如果在 /conf/example/instance.properties中已经配置 这里不用谢
    CanalConnector connector = CanalConnectors.newSingleConnector(new InetSocketAddress("192.168.61.132",
            11111), "example", "", "");

    int batchSize = 1000;
    int emptyCount = 0;
    try {
        connector.connect();
        connector.subscribe(".*\\..*");
        connector.rollback();
        int totalEmtryCount = 120;
        while (emptyCount < totalEmtryCount) {
            Message message = connector.getWithoutAck(batchSize); // 获取指定数量的数据
            long batchId = message.getId();
            int size = message.getEntries().size();
            if (batchId == -1 || size == 0) {
                emptyCount++;
                System.out.println("empty count : " + emptyCount);
                try {
                    Thread.sleep(1000);
                } catch (InterruptedException e) {
                }
            } else {
                emptyCount = 0;
                // System.out.printf("message[batchId=%s,size=%s] \n", batchId, size);
                printEntry(message.getEntries());
            }

            connector.ack(batchId); // 提交确认
            // connector.rollback(batchId); // 处理失败, 回滚数据
        }

        System.out.println("empty too many times, exit");
    } finally {
        connector.disconnect();
    }
}

组装数据发送至Kafka

private static void printColumn(List<Column> columns) {

    for (Column column : columns) {
        System.out.println(column.getName() + " : " + column.getValue());
        KafkaProducer.sendMsg("canal", UUID.randomUUID().toString() ,column.getName() + " : " + column.getValue());
    }
}

Streaming分渠道汇总数据

以DStream中的数据进行按key做reduce操作，然后对各个批次的数据进行累加
在有新的数据信息进入或更新时，可以让用户保持想要的任何状。使用这个功能需要完成两步：

定义状态：可以是任意数据类型
定义状态更新函数：用一个函数指定如何使用先前的状态，从输入流中的新值更新状态。
对于有状态操作，要不断的把当前和历史的时间切片的RDD累加计算，随着时间的流失，计算的数据规模会变得越来越大。

val orders = resut_lines.updateStateByKey(updateRunningSum _)

def updateRunningSum(values: Seq[Long], state: Option[Long]) = {
/*
  state:存放的历史数据
  values:当前批次汇总值
 */
Some(state.getOrElse(0L)+values.sum)
}

统计结果写入Mysql

实时汇总某渠道下单量需要根据渠道为主键更新或插入新数据
1.当某个渠道第一单时，库中没有以此渠道为主键的数据，需要insert into 订单统计表
2.当某渠道在库中已有该渠道下单量，需要更新此渠道下单量值 update 订单统计表
所以我们使用：

#有该渠道就更新，没有就插入
REPLACE INTO order_statistic(chanel, orders) VALUES(?, ?)

orders.foreachRDD(rdd =>{
  rdd.foreachPartition(rdd_partition =>{
    rdd_partition.foreach(data=>{
      if(!data.toString.isEmpty) {
        System.out.println("订单量"+" : "+data._2)
        DataUtil.toMySQL(data._1.toString,data._2.toInt)
      }
    })
  })
})

def toMySQL(name: String,orders:Int) = {
    var conn: Connection = null
    var ps: PreparedStatement = null
    val sql = "REPLACE INTO order_statistic(chanel, orders) VALUES(?, ?)"
    try {
      Class.forName("com.mysql.jdbc.Driver");
      conn = DriverManager.getConnection("jdbc:mysql://192.168.20.126:3306/test", "root", "root")

      ps = conn.prepareStatement(sql)
      ps.setString(1, name)
      ps.setInt(2, orders)
      ps.executeUpdate()
    } catch {
      case e: Exception => e.printStackTrace()
    } finally {
      if (ps != null) {
        ps.close()
      }
      if (conn != null) {
        conn.close()
      }
    }
}

FAQ

1.canal依赖Canal protobuf版本为2.4.1，而spark依赖的2.5版本

<dependency>
    <groupId>com.google.protobuf</groupId>
    <artifactId>protobuf-java</artifactId>
    <version>2.4.1</version>
</dependency>

参考文章

1.Canal wiki:
https://github.com/alibaba/canal/wiki
2.streaming关于转化操作
http://spark.apache.org/docs/1.6.0/streaming-programming-guide.html#transformations-on-dstreams
3.mysql的replace into
http://blog.sina.com.cn/s/blog_5f53615f01016wy3.html

最后编辑于：2017.12.04 17:12:39

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 158,425评论 4赞 361
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 67,058评论 1赞 291
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 108,186评论 0赞 243
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 43,848评论 0赞 204
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 52,249评论 3赞 286
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 40,554评论 1赞 216
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 31,830评论 2赞 312
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 30,536评论 0赞 197
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 34,239评论 1赞 241
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 30,505评论 2赞 244
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 32,004评论 1赞 258
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 28,346评论 2赞 253
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 32,999评论 3赞 235
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 26,060评论 0赞 8
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 26,821评论 0赞 194
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 35,574评论 2赞 271
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 35,480评论 2赞 267