热点事件识别在新闻推荐系统中的应用

头图

现今流行的热点事件识别,其实更多的关注如何在海量的内容中去发现一个热点事件。这里面既包含了对于实体事件的提取,也包含的类似摘要的信息挖掘,再配上用户行为的反馈。

什么是热点事件?

热点事件普遍是指在社会(或者某些领域)中引起广泛关注、参与讨论、激起民众情绪,引发强烈反响的事件,通俗点说就是被很多人熟知且讨论的事件。

热点事件对于新闻推荐系统的意义?

推荐系统的目的,在于分发用户感兴趣的新闻。但是热点是一个不同于普通新闻的数据,即使一人并不对娱乐新闻感兴趣,但是当马蓉和王宝强的这种爆炸新闻出现的时候,他也会去关注,去看上一看。一个是这源于人对于爆炸性新闻的好奇心,一个是出于在我们这种世俗社会中,对于谈资的积累需求。

所以,当热点事件来临的时候,可以降低对于垂直兴趣的追求,热点本身,就可以看作是一种兴趣。

对热点内容的分发,可以体现一个推荐系统的媒体属性,也可以增强推荐的新颖度,防止兴趣收敛。

什么是热点事件识别?

通俗点说,就是及时发现一个热点,并能找出或者写出热点相关的文章,并分发给用户。

为什么要进行热点事件识别?

对热点的追踪和敏感度,是反应一个媒体的媒体属性是否强烈的标准之一。一个优秀的媒体,必然会对热点有足够的敏感度,能够及时的发现热点,迅速的报道热点,并对热点内容提出有价值的深度跟踪,以满足新闻用户对于热点的关注。

所以,在机器时代,如何在海量的数据中找到热点事件并及时推送给用户也成了一个很大的挑战。

如果能够非常有前瞻性的发现热点,并及时推送给用户,引起用户的关注和广泛的传播,就能够把握互联网中的大量流量,从而为app带来更多的收益。

目前效果较好的热点事件发现技术:

1.基于传播的热点事件发现

简单来说,就是通过监测信息在大规模人群中的传递情况,假如一个事件在一个时间段内迅速的由某些节点传递给了很多的节点,并呈现出指数级增长,那么可以发现到这个热点事件。

2.基于搜索的热点事件发现

这个是基于搜索引擎,应该也很好理解,在某段时间内,有越来越多的人群去搜索一个事件,导致该事件的搜索量激增,那也可以发现这个事件。

然而,很可惜,上面的两点我们都做不到。一个是我们没有用户的社交属性,不具备新闻的传播路径,二是我们缺乏用户的主动行为,虽然说有搜索接口,但是真正去搜索的用户是非常少量的。所以用上面的方法是不靠谱的。

当然,分析上面的本质,都是源于用户的反馈,能够较好的去发现。我们曾经尝试使用自己的数据去做这样的尝试,使用用户信息去监测有激增行为的新闻,再对这些新闻进行归类,找到可能的热点,然而这在技术上有很大的挑战,再一个是丧失了新闻的时效特征,尤其对于热点来说,一分一秒都是要争取的。这样的一轮计算下来,很可能是热点已经传播的十分广泛,其实对于我们新闻客户端来说,这时候再发现热点已经没有什么价值,流量都已经完成分发。

我们是如何解决热点事件问题?

1.获取热点事件

既然我们不能主动的提取热点事件,那就想办法去直接获取热点事件。第一点,就想到了不劳而获。既然基于搜索或者传播能够比较及时的获取热点事件,那我们就发扬一下拿来主义好了。网上其实有很多提供这种实时热点事件的地方,比如百度风云榜,微博热搜,搜狗热搜等等,还有很多,等你自己去发现把。

  • a.抓取
    定时去抓取这些词汇,这个应该不难了,只有非常有限的内容,只需要每隔一段事件去获取一下,跟上次的数据做一些对比,就能很快知道有哪些事件词或句子。这个方法简单易行,获取的热点数量多,但是可能效果就差一点,而且仍然会有一定的时延。
  • b.运营
    需要有新闻敏感度的运营人员去手工添加,这个方法获取的热点数目较少,但是延迟几乎可以忽略。
    这里,也会为热点事件构造一些属性,比如热点等级,热点时效,热点分类等等。


    微博热搜榜
百度风云榜
搜狗热搜

2.为文章打上热点事件标签

有了不断更新的事件库,还需要为每个新闻进行标注,它属不属于热点新闻,属于哪个热点的新闻。
如果热点词过长,首先需要对它进行分词。否则就按整个词去匹配。这时候就需要根据业务去构建一套匹配的逻辑,或者算法,来衡量一个热点事件与文章的匹配程度。当达到一定的阈值或者某些规则,就可以认为这两个是匹配的。

3.构建热点事件模型库,提升匹配度

由于上述直接获取的热点词有比较大的局限性,比如对于同一事件,不同的人表达方法是不一样的,单纯使用一个热点词的泛化能力较弱。所以有了一些对应的文章,那可以着手来构建热点事件模型了。这里简单来说一下,假如有事件A,已知跟A匹配的文章1,2,3。从1,2,3中提取最重要的前n个关键词,去汇集成A的模型,可以使用简单的连乘来设为匹配度,这样做的目的是去扩充相关内容,让更多接近的文章能够获得热点事件标签。

4.把热点事件文章分发给用户

有了热点事件,和对应的文章,下一步就是在推荐层面增加对热点事件的召回概率。基于之前所说的假设,热点本身就是一个兴趣,那么一个热点事件的热度等级会影响分发面积。同时,热点事件和分类的交叉特征会影响一个用户是否会收到热点的情况。

5.用户的反馈和用户画像调整

当带有热点事件的新闻被分发出去,用户会点击,打开观看,或者直接掠过。此时可以针对用户的行为进行分析,如果用户从来不看热点新闻,那他的画像关于热点的特征将很低。根据给他曝光的热点新闻和他的打开情况,会有计算他对于热点事件的关注度。同时,会记录他喜欢哪些热点事件,在后续的热点分发时,还可以去计算新热点事件和旧热点的协同情况,用以更精准的分发。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 159,117评论 4 362
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 67,328评论 1 293
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 108,839评论 0 243
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 44,007评论 0 206
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 52,384评论 3 287
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 40,629评论 1 219
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 31,880评论 2 313
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 30,593评论 0 198
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 34,313评论 1 243
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 30,575评论 2 246
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 32,066评论 1 260
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 28,392评论 2 253
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 33,052评论 3 236
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 26,082评论 0 8
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 26,844评论 0 195
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 35,662评论 2 274
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 35,575评论 2 270

推荐阅读更多精彩内容