大数据之用户视频观看时长的数据统计(一)

最近接手了一个关于中学生家庭视频教育的项目,其中核心的部分要求统计用户的视频看时长,并且管理员可以分别查看某一地区或者学校总的观看时长以及上月或上周的观看时长,并且视频的观看时间要求合并及去重复,也就是说一个用户如果多次不同时间重复观看同一视频,是不计入总的观看时间的。业务复杂的地方在于统计观看时间的合并以及去重,以及实时视频观看数据上报平台的搭建以及数据统计服务的搭建(客户端每5S上报一次请求数会很大)。

对于某一用户视频观看时长的合并及去重可以简化为时间区间的合并以及去重,客户端每次上报,都会在服务端记下本次上报的视频开始时间以及结束时间,那么就可以看成一个数字区间,比如第一次上报的是[0, 10] 第二次用户拖动了一点观看,上报的区间是[2,11],第三次[11,23] ,第四次[13,45] ,那么最终的观看时间区间为 [0,45],考虑到极端上报情况,区间可能是间断的[0,5] [15,21] [9, 20] 这时最终去得合并后得到[0,5] [9,21],这么来看的话我们就需要找到一个最优的算法来解决区间的去重及合并。由于每5S上报一次 所以一个视频看完时可能最终会报出成百上千个时间区间。这时候就要求算法的复杂度越小越好。

如果把所有的上报区间看成一个二维数组。先将区间数组排序按开始时间排序 比如[0,5] [15,21] [9, 20]排序后是[0,5] [9, 20][15,21] 然后再将第一个区间的结束时间与第二区间的开始时间进行比较,如果第一个比第二个大就合并,然后将第一个区间剔除,依次类推直到合并到没有重复的区间为止,那么算法就很明显了这其实是一个递归问题 。

下面给出算法代码示例,算法的关键在于getUniqueList方法,大神们如果有更好的解决方案也可以在文章下评论,指导一下,哈哈。

<?php
/**
 * Created by PhpStorm.
 * User: Administrator
 * Date: 2017/6/23
 * Time: 11:41
 */
$test = new Test();
print_r($test->actionTest());

class Test
{
    public function actionTest()
    {
        $data = [[0,9],[439,539],[439,539],[439,539],[439,539],[439,539],[439,569],[439,569],[439,569],[439,569],[439,569],[439,569],[439,569],[439,569],[439,569],[479,539],[479,539],[479,539],[479,539],[479,539],[479,539],[479,539],[479,599],[639,869],[639,869],[639,869]];

        $uList = $this->getUniqueList($data, $uniqueList);
        return $uList;
    }

    /**
     * 获取不重复的观看时间区间
     * @param $list
     * @param $uniqueList
     * @return array
     */
    public function getUniqueList($list, &$uniqueList)
    {
        if(empty($list)) return $uniqueList;
        $first = array_shift($list);
        $newList = [];
        $hasRepeat = false;
        for($i = 0; $i < count($list); $i++)
        {
            $current = $list[$i];
            //结束时间比当前开始时间大,合并时间区间
            if(($first[1] + 1) >= $current[0])
            {
                $hasRepeat = true;
                $row[0] = min($first[0], $current[0]);
                $row[1] = max($first[1], $current[1]);
                $first = $row;
            }
            else
            {
                $newList[] = $list[$i];
            }
        }

        $uniqueList[] = $first;
        //没有重复区间返回
        if(!$hasRepeat && empty($list))
        {
            if(!empty($newList)) $uniqueList = array_merge($uniqueList, $newList);
            return $uniqueList;
        }

        return $this->getUniqueList($newList, $uniqueList);
    }

    /**
     * 二维数组按某个字段排序
     * @param $data
     * @param $field
     * @param string $sort
     * @return mixed
     */
    protected function sortByField($data, $field, $sort = 'SORT_DESC')
    {
        if (empty($data))
            return [];

        $arrSort = array();
        foreach ($data as $id => $row) {
            foreach ($row as $key => $value) {
                $arrSort[$key][$id] = $value;
            }
        }

        array_multisort($arrSort[$field], constant($sort), $data);
        return $data;
    }
}

运行结果如下

Array
(
    [0] => Array
        (
            [0] => 0
            [1] => 9
        )

    [1] => Array
        (
            [0] => 439
            [1] => 599
        )

    [2] => Array
        (
            [0] => 639
            [1] => 869
        )

)

最终结果是满足我们需求的,不重复的区间得到之后再循环数组相减,就可以得到这个用户总的不重复观看时间了,算法的复杂度为n的二次方,如果n是小于100的话,循环次数不超过1万次,如果将统计的定时任务设定为每隔5分钟(n = 60)统计一次观看时间,下次统计代入上次不重复区间n肯定是小于100的,所以总体算法复杂度还是不错的。

下篇文章中我将会给出视频统计平台的架构设计,如何在请求数较高的情况下低延时统计用户每天的不重复看视频时长,敬请期待哦。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 159,835评论 4 364
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 67,598评论 1 295
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 109,569评论 0 244
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 44,159评论 0 213
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 52,533评论 3 287
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 40,710评论 1 222
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 31,923评论 2 313
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 30,674评论 0 203
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 34,421评论 1 246
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 30,622评论 2 245
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 32,115评论 1 260
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 28,428评论 2 254
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 33,114评论 3 238
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 26,097评论 0 8
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 26,875评论 0 197
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 35,753评论 2 276
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 35,649评论 2 271

推荐阅读更多精彩内容