强化学习:贝尔曼方程和最优性

1.Bellman Expectation Equation
2.Optimal Policy
3.Bellman Optimality Equation for State-Value Function
4.Bellman Optimality Equation for State-action value Function

什么是贝尔曼期望方程?


image.png

从上面的等式,可以知道,当前状态s的价值可以分解成,即时奖励R[t+1]加上带有折扣因子 𝛾的后一个状态的价值v[S (t+1)]。这仍然代表贝尔曼期望方程。
但是我们现在做的是找到受某个策略支配的特定状态的价值。这就是贝尔曼方程和贝尔曼期望方程的区别。

在数学上,我们可以将贝尔曼期望方程定义为:
image.png

让我们称之为方程 1,上面的等式告诉我们,当我们遵循某个策略 (π) 时,特定状态的价值由即时奖励加上后继状态的价值决定。

类似地,我们可以表达我们的状态-动作值函数(Q-Function)如下:
image.png

我们称其为方程 2。从上面的等式中,我们可以看到,一个状态的 State-Action Value 可以分解为我们在 state(s) 中执行某个 action 并移动到另一个 state(s') 时获得的即时奖励加上折扣过的状态(s')的状态动作价值函数。

深入研究贝尔曼期望方程:
首先,让我们借助图来理解状态值函数的贝尔曼期望方程:


image.png

此备份图描述了处于特定状态的价值。从状态 s 来看,我们有可能采取这两种行动。每个动作都有一个 Q 值(状态-动作值函数)。我们平均 Q 值,它告诉我们在特定状态下有多好。基本上,它定义了 Vπ(s)。[看公式 1]

在数学上,我们可以将其定义如下:


image.png

这个方程也告诉我们状态-价值函数和状态-动作价值函数之间的联系。现在,让我们看一下 State-Action Value Function 的备份图:
image.png

这个备份图说,假设我们从采取一些行动(a)开始。因此,由于动作(a),代理可能会被环境吹到这些状态中的任何一个。因此,我们要问的问题是,采取行动(a)有多好?

未完


马尔可夫决策过程

从一种状态移动到另一种状态称为Transition.
代理从一种状态移动到另一种状态的概率称为Transition Probability.

马尔科夫性质:


image.png

“Future is Independent of the past given the present”,S[t] 表示当前agent状态, s[t+1] 表示下一状态。上面的等式意味着,从 S[t] 转移到 S[t+1] 完全独立于过去。直觉上意味着我们当前的状态已经捕获了所有过去状态的信息。

马尔科夫过程/马尔科夫链
马尔可夫过程是无记忆的随机过程

推荐阅读更多精彩内容