策略
- 确定性策略是从
的映射。对于每个状态
,它都生成智能体在状态
时将选择的动作
。
- 随机性策略是从
的映射。对于每个状态
和动作
,它都生成智能体在状态
时选择动作
的概率。
状态值函数
- 策略
的状态值函数表示为
。对于每个状态
,它都生成智能体从状态
开始,然后在所有时间步根据策略选择动作的预期回报。即
。我们将
称之为在策略
下的状态
的值。
- 记法
来自推荐的教科书,其中
定义为随机变量的预期值(假设智能体遵守策略
)。
贝尔曼方程(第1部分)
的贝尔曼预期方程是:
。
最优性
- 策略
定义为优于或等同于策略
(仅在所有
时
。
- 最优策略
对于所有策略
满足
。最优策略肯定存在,但并不一定是唯一的。
- 所有最优策略都具有相同的状态值函数
?,称为最优状态值函数。
动作值函数
- 策略
的动作值函数表示为
?。对于每个状态
和动作
,它都生成智能体从状态
开始并采取动作
,然后在所有未来时间步遵守策略时产生的预期回报。即
。我们将
称之为在状态
根据策略
采取动作
的值(或者称之为状态动作对
的值)。
- 所有最优策略具有相同的动作值函数
?,称之为最优动作值函数。
最优策略
- 智能体确定最优动作值函数
? 后,它可以通过设置
快速获得最优策略
。
贝尔曼方程(第2部分)
? 的贝尔曼预期方程是:
的贝尔曼最优性方程是:
的贝尔曼最优性方程是: