Spark实例-每天每个搜索词用户访问

1.需求分析

根据平台的日志记录,统计处每天每个搜索词访问的UV,并把排名前三的搜索词及其UV打印出来。

2.数据格式

日期 用户 搜索词 城市 平台 版本

2017-03-13,leo,barbecue,beijing,android,1.0
2017-03-13,leo,barbecue,beijing,android,1.0
2017-03-13,leo,barbecue,beijing,android,1.0
2017-03-13,leo,cloth,beijing,android,1.0
2017-03-13,leo2,cloth,beijing,android,1.0
2017-03-13,jack,barbecue,shanghai,android,1.1
2017-03-13,leo,paper,beijing,ios,1.0
2017-03-13,tom,barbecue,beijing,android,1.2
2017-03-13,leo,cup,beijing,android,1.0
2017-03-13,mary,barbecue,beijing,android,1.2
2017-03-13,leo,barbecue,beijing,ios,1.3
2017-03-13,leo,cup,beijing,android,1.0
2017-03-13,leo1,cup,beijing,android,1.0
2017-03-13,leo2,cup,beijing,android,1.0
2017-03-13,leo3,cup,beijing,android,1.0
2017-03-13,leo4,cup,beijing,android,1.0

3.实现分析

  • 针对原始数据(HDFS)获得输入的RDD
  • 使用filter算子,去针对RDD输入的数据,进行数据过滤,过滤出符合条件的数据
  • 将数据转换为“日期_搜索词,用户”格式,对他进行分组,对每天每个搜索词用户进行去重复操作,并统计去重后的数据,即为每天每个搜索词的UV
  • 最后获得“日期_搜索词,UV”

4.代码实现

package com.spark.sql

import org.apache.spark.sql.SQLContext
import org.apache.spark.sql.Row
import org.apache.spark.sql.types.{LongType, StringType, StructField, StructType}
import org.apache.spark.{SparkConf, SparkContext}

import scala.collection.mutable.ListBuffer
object DailyTop3KeyWord extends App{
  val conf = new SparkConf()
    .setMaster("local")
    .setAppName("DailyTop3KeyWord")

  val sc = new SparkContext(conf)
  val sqlContext = new SQLContext(sc)
  //导入隐式转化
  import sqlContext.implicits._

  //伪造一份数据,查询条件,实际情况是通过MYSQL关系数据库查询
  var queryPara = Map(
    "city" -> List("beijing"),
    "platform" -> List("android"),
    "version" -> List("1.0","1.1","1.2","1.3")
  )

  //将查询条件封装为一个BroadCast变量
  val queryParaBroadCast = sc.broadcast(queryPara)

  //读取数据
  val searchLogRDD=sc.textFile("E:\\spark\\src\\main\\resources\\searchLog.txt")

  //使用广播变量进行筛选
  /**
  println(queryParaBroadCast.value.get("city"))
  val city = queryParaBroadCast.value.get("city").get
  val version = queryParaBroadCast.value.get("version").get
  println(version)
  if(version.contains("1.0")){
    println("1.0")
  }else{
    println("no")
  }
    */
    //通过广播变量筛选符合条件的数据
  val filtedSearchLogRDD=searchLogRDD.filter(log=>{
            val queryParamValue=queryParaBroadCast.value
            val citys=queryParamValue.get("city").get;
            val platforms=queryParamValue.get("platform").get;
            val versions=queryParamValue.get("version").get;
            val city=log.split(",")(3);
            val platform=log.split(",")(4);
            val version=log.split(",")(5);
            var flag=true;
            if(!citys.contains(city)){
              flag=false
            }
            if(!platforms.contains(platform)){
              flag=false
            }
            if(!versions.contains(version)){
              flag=false
            }
    flag
  })

  //将过滤出来的日志映射成“日期_搜索词,用户”
  val dateKeywordRDD=filtedSearchLogRDD.map(row=>(
           row.split(",")(0)+"_"+row.split(",")(2),row.split(",")(1)
    ))
  //dateKeywordRDD.foreach(println)
  //进行分组,获取每天每个个搜索词,有哪些用户搜索了,(没有去重)
  val dateKeywordUserRDD=dateKeywordRDD.groupByKey()
  dateKeywordUserRDD.collect().foreach(println)
  /**
(2017-03-13_cloth,CompactBuffer(leo, leo2))
(2017-03-13_cup,CompactBuffer(leo, leo, leo1, leo2, leo3, leo4))
(2017-03-13_barbecue,CompactBuffer(leo, leo, leo, tom, mary))
   */
 //将相同行数合并,并计算用户访问的次数,“日期_搜索词,UV”
  val dateKeywordUVRDD=dateKeywordUserRDD.map(row=>{
     val dateKeyWord=row._1
     val users=row._2.iterator
     val distinctUsers=new ListBuffer[String]
      while(users.hasNext){
       val user=users.next().toString()
        if(!distinctUsers.contains(user)){
          distinctUsers.append(user)
        }
    }
    val uv=distinctUsers.size
    (dateKeyWord,uv)
  })
  //将“日期_搜索词,UV”转换为DataFrame
  val dateKeywordUVRowRDD=dateKeywordUVRDD.map(row=>Row(row._1.split("_")(0),row._1.split("_")(1),row._2.toString.toLong))
  val structType=StructType(Array(
    StructField("date",StringType,true),
    StructField("keyword",StringType,true),
    StructField("uv",LongType,true)
  ))
  val dateKeywordUVDF=sqlContext.createDataFrame(dateKeywordUVRowRDD,structType)
  //注册临时函数
  dateKeywordUVDF.createOrReplaceTempView("daily_keyword_uv")
  //利用spark sql开窗函数,统计每天搜索UV排名前三的搜索词
   val dailyTop3KeyWordDF=sqlContext.sql(""
     + "select date," +
     "         keyword," +
     "          uv " +
     "  from  " +
     " (select " +
     "       date," +
     "       keyword," +
     "       uv," +
     "       row_number() over(partition by date order by uv desc ) rn " +
     " from daily_keyword_uv) " +
     "  where rn <=3")
  dailyTop3KeyWordDF.show()
  sc.stop()

}
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 156,907评论 4 360
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 66,546评论 1 289
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 106,705评论 0 238
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 43,624评论 0 203
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 51,940评论 3 285
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 40,371评论 1 210
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 31,672评论 2 310
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 30,396评论 0 195
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 34,069评论 1 238
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 30,350评论 2 242
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 31,876评论 1 256
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 28,243评论 2 251
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 32,847评论 3 231
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 26,004评论 0 8
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 26,755评论 0 192
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 35,378评论 2 269
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 35,266评论 2 259

推荐阅读更多精彩内容