《强化学习导论》:Eligibility Traces

96
初七123
2019.01.05 08:56* 字数 477

资格迹是增强学习的一个基本的机制。比如在流行的TD(k)算法中,k涉及到资格迹的使用。几乎所有的时间差分算法如Q-Learning,Sarsa,都能被结合资格迹来获得更有效的方法。

The λ-return

Now we note that a valid update can be done not just toward any n-step return, but toward any average of n-step returns

TD(λ) 算法可以理解为一种特殊的平均n-step更新

the off-line λ-return algorithm

Theλ-return gives us an alternative way of moving smoothly between Monte Carlo and one-step TD methods that can be compared with then-step TD way of Chapter 7.

TD(λ)

TD(λ)是强化学习中最古老和应用最广泛的算法之一。这是第一个使用资格追踪在更理论的前视图和计算上更一致的后视图之间显示形式关系的算法。这里,我们将展示经验,它近似上一节中提出的离线λ- return算法

TD(λ)以三种方式改进了离线λ-返回算法。 首先,它在每一步而不是仅在结尾处更新权重向量,因此其估计可能更快更好。其次,其计算分布在各个时间段而不是集中于末尾。 第三,它可以应用于连续的问题,而不仅仅是episodic问题。 在本节中,我们提出了具有函数逼近的TD(λ)的半梯度版本

In TD(λ), the eligibility trace vector is initialized to zero at the beginning of the episode, is incremented on each time step by the value gradient

n-step Truncated λ-return Methods

In general, we define the truncated λ-return for time t, given data only up to some later horizon,h, as

Redoing Updates: The Online λ-return Algorithm

True Online TD(λ)

Dutch Traces in Monte Carlo Learning

Sarsa(λ)

资格迹扩展到 Sarsa

Watkins’s Q(λ) to Tree-Backup(λ)

资格迹扩展到 Q-Learning

强化学习
Web note ad 1