240 发简信
  • 120
    《强化学习导论》:Off-policy Methods with Approximation

    Semi-gradient Methods 前面个章节中,我们提到了表格法的异策略,这里稍作修改得到半梯度的异策略算法 对于动作值函数 可以看到...

  • 经典排序算法

    冒泡排序 较大数字往后浮动循环 N-1 次完成排序时间复杂度 O(n^2) 快速排序 随机选出一个中心数比这个数小的放到左边,大的放右边然后对左...

  • 120
    《强化学习导论》:Dynamic Programming

    这里的DP是强化学习中用于求解MDP问题的一种方法,本章用DP找到满足最优贝尔曼方程的策略 首先我们考虑如何评估状态值函数v,这又被称为策略评估...

  • 120
    CTR 预估(上)

    简介 推荐系统通常分为召回和排序两个步骤召回:粗排选取合适的内容,可以通过协同过滤,兴趣tag,内容最热等方式排序(CTR预估):使用一个点击率...

    0.2 3796 0 11
  • 120
    《深度学习》:蒙特卡洛方法

    采样和蒙特卡洛方法 当无法精确计算和或积分(例如,和具有指数数量个项,且无法被精确简化) 时,通常可以使用蒙特卡罗采样来近似它 根据大数定理,如...

  • CSRF攻击和XSS攻击的区别

    XSS 跨站脚本攻击 原理 XSS 其实就是所谓的 HTML 注入,攻击者的输入没有经过后台的过滤直接进入到数据库,最终显示给来访的用户。如果攻...

  • 120
    《深度学习》:直面配分函数

    许多概率模型(通常是无向图模型)由一个未归一化的概率分布定义,我们必须除以配分函数来归一化 对数似然梯度 通过最大似然学习无向模型特别困难的原因...

  • 120
    《强化学习导论》:Monte Carlo Methods

    在本章中,我们将考虑我们用于估计价值函数和发现最优政策的第一种学习方法。 与前一章不同,这里我们不假设完整的环境知识。 蒙特卡罗方法只需要经验 ...

  • 120
    Ring Allreduce

    http://andrew.gibiansky.com/ The Communication Problem 当将神经网络的训练并行化到许多GP...