单步强化学习在糖豆推荐系统的应用

1.强化学习基础

1.1 强化学习概念

强化学习通常用马尔科夫决策过程(Markov Desicision Process)来描述：机器(agent)在环境(environment)中，状态空间为S，其中每个状态s∈S是机器所处于的环境的描述；机器所能采取动作(Action)，其空间为A；若机器采取动作a∈A作用于当前状态s，潜在的转移概率p会使得环境当前状态s按某种概率转移到另一状态s'，同时环境会根据潜在的奖赏函数(Reward)给机器反馈一个奖赏。因而，强化学习可以用四元组E=<S,A,P,R> 来表达。其图示如下：

强化学习图示

以下举例说明：
不同的state采取不同的action，会有一定概率发生状态转移，最后得到不同的reward。

MDP

机器要做的是在环境中不断尝试学习到一个最优的策略π，根据该策略，能知道状态s下需要执行的动作a=π(x)。策略优劣取决于长期执行该策略的累计奖赏，它有多种计算方法，包括T步累计奖赏、γ折扣累计奖赏等。其中γ累计折扣奖赏公式如下：

γ累计折扣奖赏

可以看到强化学习与监督学习不同的是，最终奖赏一般会体现在多步动作之后，从某种意义上来说，可以看作具有“延迟标记信息”的监督学习问题。而强化学习的最简单形态，最大化单步奖赏，对应的正是多臂老虎机理论。

1.2 多臂老虎机(MAB)

一个赌徒，要去摇老虎机，走进赌场一看，一排老虎机，外表一模一样，但是每个老虎机吐钱的概率可不一样，他不知道每个老虎机吐钱的概率分布是什么，那么想最大化收益该怎么整？这就是多臂赌博机问题(Multi-armed bandit problem, K-armed bandit problem, MAB)。

拉加维加斯老虎机

如果赌徒知道每个摇臂的期望奖赏，那么他只需要“仅利用(exploitation-only),即只要一直按下最大奖赏的摇臂。如果仅为获知每个摇臂的期望奖赏，则采用“仅探索(exploration-only)”，即轮流按下每个摇臂。事实上，“仅利用”和“仅探索”都难以实现累计奖赏最大化。事实上，“探索”和“利用”是矛盾的，欲使累计奖赏最大化，那就需要折中两者。

1.3 Bandit算法

Bandit算法有非常多种，我们采用累积遗憾（regret）来评估一个算法好坏。
MAB的每个臂的收益非0即1，也就是伯努利收益。算法每次选择后，计算和最佳的选择差了多少，然后把差距累加起来就是总的遗憾。

累积regret

ε-Greedy

选一个(0,1)之间较小的数ε，每次决策以概率ε去勘探Exploration，1-ε的概率来开发Exploitation，基于选择的item及回报，更新item的回报期望，不断循环下去。

SoftMax

SoftMax利用softmax函数来确定各item的回报的期望概率排序，进而在选择item时考虑该信息，减少exploration过程中低回报率item的选择机会，同时收敛速度也会较ε-Greedy更快。

UCB

Upper Confidence Bound，步骤如下：初始化：先对每一个臂都试一遍；按照如下公式计算每个臂的分数，然后选择分数最大的臂作为选择：

item期望

其中，x_j是item_j的平均回报，n_j是item_j截至当前被选择的次数，n为当前选择所有item的次数。上式反映了，均值越大，标准差越小，被选中的概率会越来越大，起到了exploit的作用；同时哪些被选次数较少的item也会得到试验机会，起到了explore的作用。

LinUCB

UCB没用充分利用上下文信息Contextual，而LinUCB的基本思想是对每个item的回报估计及其置信区间同时建模，然后每次选择回报的估计值与其标准差的和最大的那个item，因此LinUCB在推荐系统中，能够较好地平衡显示用户已经喜欢的某类文章和对其他没怎么看过的类别的文章，从而引导用户对未知类别的探索。

Thompson sampling

假设每个item有一个产生回报的概率p，我们通过不断试验来估计一个置信度较高的概率p的概率分布。如何估计概率p的概率分布呢？假设概率p的概率分布符合beta(wins, lose)分布，它有两个参数: wins, lose，每个item都维护一个beta分布的参数。每次试验选中一个item，有回报则该item的wins增加1，否则lose增加1。每次选择item的方式是：用每个item现有的beta分布产生一个随机数b，选择所有item产生的随机数中最大的那个item。

Thompson sampling

以上各种算法在不同的性能：

bandit算法对比

2. 多臂老虎机的推荐应用

2.1 冷启动

计算机广告和推荐系统中，有很多问题可以抽象为E&E问题：

user冷启动：假设一个用户对不同类别的内容感兴趣程度不同，那么我们的推荐系统初次见到这个用户时，怎么快速地知道他对每类内容的感兴趣程度？
item冷启动：假设资源池有若干新item，怎么知道该给每个用户展示哪个，从而获得最大的点击，同时还能保证每个item得到一定的曝光？

这些都是糖豆在实际线上业务遇到的问题，我们采用 Thompson sampling算法来解决推荐过程遇到的E&E问题。

public class BandItTask {
    public void editorLiteVideo(){
            // 获得beta 分布
            Random r = new Random();
            Map<String, Double> map = new TreeMap<String, Double>();
            for (Iterator<String> iterator = videos.keySet().iterator(); iterator.hasNext();) {
                String vid = iterator.next();
                Map<String,String> mab = null;
                try{
                    mab = predis.hgetAll("mab_"+vid);
                }catch(Exception e){
                    mab = new HashMap<>();
                    logger.error("",e);
                }
                double win=1.00, lose = 1.00;
                if (null == mab || mab.isEmpty()){// 如果还没有lose,win
                    if (null == items || !items.contains(vid)){ //并且没有给过初始化的sample值,给个初始化值
                        win = Convert.toDouble(mab.get("win"),(double)r.nextInt(100));
                        lose = Convert.toDouble(mab.get("lose"),(double)r.nextInt(100));
                    }
                }else{
                    win = Convert.toDouble(mab.get("win"),win);
                    lose = Convert.toDouble(mab.get("lose"),lose);
                }
                BetaDistribution beta = new BetaDistribution(win, lose);
                double p = beta.sample();
                map.put(vid, p);
                logger.debug("editorLiteVideo - for sample, vid :"+vid+", mab :"+mab+", win :"+win+", lose :"+lose+", p :"+p);
            }
    
    Logger logger = Logger.getLogger(BandItTask.class);
}

2.2 效果评估

MAB的应用在糖豆不同的推荐数据集和不同用户群体上多次AB测试结果显示，相较仅探索、加权平均分配、阶梯分配等方法，MAB算法的CTR提升了20%~50%。尤其是item和user都是冷启动的场景，能够带来非常显著的提升。

3. 不足与改进

不足：

目前我们实现的MAB是batch形式，会带来不必要的累积regret。
另外bandit实验数据未能和内容分类结合，形成推荐知识累积闭环。

改进：

研究MAB的收敛界，增量更新分布，减少regret
研究对比其他contextual bandit

参考文献

最后编辑于：2018.01.10 23:53:49

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 158,736评论 4赞 362
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 67,167评论 1赞 291
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 108,442评论 0赞 243
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 43,902评论 0赞 204
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 52,302评论 3赞 287
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 40,573评论 1赞 216
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 31,847评论 2赞 312
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 30,562评论 0赞 197
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 34,260评论 1赞 241
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 30,531评论 2赞 245
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 32,021评论 1赞 258
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 28,367评论 2赞 253
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 33,016评论 3赞 235
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 26,068评论 0赞 8
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 26,827评论 0赞 194
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 35,610评论 2赞 274
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 35,514评论 2赞 269

单步强化学习在糖豆推荐系统的应用

1.强化学习基础

1.1 强化学习概念

1.2 多臂老虎机(MAB)

1.3 Bandit算法

ε-Greedy

SoftMax

UCB

LinUCB

Thompson sampling

以上各种算法在不同的性能：

2. 多臂老虎机的推荐应用

2.1 冷启动

2.2 效果评估

3. 不足与改进

不足：

改进：

参考文献

推荐阅读更多精彩内容