策略
- 确定性策略是从 的映射。对于每个状态 ,它都生成智能体在状态时将选择的动作 。
- 随机性策略是从的映射。对于每个状态 和动作 ,它都生成智能体在状态 时选择动作 的概率。
状态值函数
- 策略 的状态值函数表示为 。对于每个状态 ,它都生成智能体从状态 开始,然后在所有时间步根据策略选择动作的预期回报。即 。我们将称之为在策略 下的状态 的值。
- 记法 来自推荐的教科书,其中 定义为随机变量的预期值(假设智能体遵守策略 )。
贝尔曼方程(第1部分)
- 的贝尔曼预期方程是:。
最优性
- 策略 定义为优于或等同于策略 (仅在所有时 。
- 最优策略 对于所有策略 满足 。最优策略肯定存在,但并不一定是唯一的。
- 所有最优策略都具有相同的状态值函数 ?,称为最优状态值函数。
动作值函数
- 策略 的动作值函数表示为 ?。对于每个状态 和动作 ,它都生成智能体从状态 开始并采取动作 ,然后在所有未来时间步遵守策略时产生的预期回报。即 。我们将 称之为在状态 根据策略 采取动作 的值(或者称之为状态动作对 的值)。
- 所有最优策略具有相同的动作值函数 ?,称之为最优动作值函数。
最优策略
- 智能体确定最优动作值函数 ? 后,它可以通过设置 快速获得最优策略 。
贝尔曼方程(第2部分)
- ? 的贝尔曼预期方程是:
- 的贝尔曼最优性方程是:
- 的贝尔曼最优性方程是: