回收机器人 MDP,high和low表示机器人的电量。
设置,重新经历
- 强化学习 (RL) 框架包含学习与其环境互动的智能体。
- 在每个时间步,智能体都收到环境的状态(环境向智能体呈现一种情况),智能体必须选择相应的响应动作。一个时间步后,智能体获得一个奖励(环境表示智能体是否对该状态做出了正确的响应)和新的状态。
- 所有智能体的目标都是最大化预期累积奖励,或在所有时间步获得的预期奖励之和。
阶段性任务与连续性任务
- 任务是一种强化学习问题。
- 连续性任务是一直持续下去、没有结束点的任务。
- 阶段性任务是起始点和结束点明确的任务。
1. 在这种情况下,我们将一个完整的互动系列(从开始到结束)称为一个阶段。
2. 每当智能体抵达最终状态,阶段性任务都会结束
奖励假设
- 奖励假设:所有目标都可以构建为最大化(预期)累积奖励。
累积奖励
- 在时间步 t的回报是
- 智能体选择动作的目标是最大化预期(折扣)回报。
折扣汇报
- 在时间步 t 的折扣回报是 。
- 折扣回报 是你设置的值,以便进一步优化智能体的目标。
1. 它必须指定 。
2. 如果 ,智能体只关心最即时的奖励。
3. 如果 ,回报没有折扣。
4. 的值越大,智能体越关心遥远的未来。的值越小,折扣程度越大,在最极端的情况下,智能体只关
心最即时的奖励。
MDPs和一步动态特性
- 状态空间是所有(非终止)状态的集合。
在阶段性任务中,我们使用表示所有状态集合,包括终止状态。
- 动作空间是潜在动作的集合。 (此外, 是指在状态的潜在动作集合。)
- 指定奖励信号
- 环境的一步动态特性会判断环境在每个时间步如何决定状态和奖励。可以通过指定每个潜在 and 的定义动态特性。
- 一个(有限)马尔可夫决策过程 (MDP) 由以下各项定义:
1. 一组(有限的)状态 (对于阶段性任务,则是 )
2. 一组(有限的)动作
3. 一组奖励
4. 环境的一步动态特性
5. 折扣率