问题描述 最近在排查一个问题,为了方便说明,我们假设现在有如下一个API: 这里我们的后台使用了Flask作为服务端框架,SQLAlchemy作...
有限边界的MDP 在前面两章关于强化学习的介绍中,我们定义了马尔可夫决策过程(MDP)以及价值迭代/策略迭代这两种用于求解MDP的算法。特别地,...
排行榜是业务开发中常见的一个场景,如何设计一个好的数据结构能够满足高效实时的查询,下面我们结合一个实际例子来讨论一下。 场景 选手报名参加活动,...
背景 在类似秒杀这样的并发场景下,为了确保同一时刻只能允许一个用户访问资源,需要利用加锁的机制控制资源的访问权。如果服务只在单台机器上运行,可以...
这一节开始我们讨论非监督学习(Unsupervised Learning)的算法。在监督学习算法中,训练数据既包含特征也包含标签,通常表示为{(...
本文主要是对项亮的推荐系统实践部分章节进行了一些总结,先从什么是推荐系统开始讲起,然后介绍了评测推荐系统的指标和方法,最后介绍了常见的推荐系统算...
朴素贝叶斯模型 在上节介绍的GDA方法中,输入特征x是连续型随机变量。现在我们介绍一个算法用于处理x是离散值的情况。 我们以邮件分类为例来介绍这...
线性二次型高斯(Linear Quadratic Gaussian (LQG)) 在现实世界中,我们通常不能获取到所有的状态st。比如一个自动驾...
这一节开始我们介绍强化学习(reinforcement learning)。在监督学习中,对于一个给定的输入x,我们可以明确知道输出y。而在很多...