(Udacity)强化学习框架：问题_综合

回收机器人 MDP,high和low表示机器人的电量。

强化学习 (RL) 框架包含学习与其环境互动的智能体。
在每个时间步，智能体都收到环境的状态（环境向智能体呈现一种情况），智能体必须选择相应的响应动作。一个时间步后，智能体获得一个奖励（环境表示智能体是否对该状态做出了正确的响应）和新的状态。
所有智能体的目标都是最大化预期累积奖励，或在所有时间步获得的预期奖励之和。

1. 在这种情况下，我们将一个完整的互动系列（从开始到结束）称为一个阶段。

2. 每当智能体抵达最终状态，阶段性任务都会结束

1. 它必须指定 $0\leq \gamma \leqslant 1$ 。

2. 如果 $\gamma = 0$ ，智能体只关心最即时的奖励。

3. 如果 $\gamma = 1$ ，回报没有折扣。

4. $\gamma$ 的值越大，智能体越关心遥远的未来。 $\gamma$ 的值越小，折扣程度越大，在最极端的情况下，智能体只关

心最即时的奖励。

在阶段性任务中，我们使用 $S^{+}$ 表示所有状态集合，包括终止状态。

动作空间 $A$ 是潜在动作的集合。 (此外， $A(s)$ 是指在状态 $s \epsilon S$ 的潜在动作集合。)
指定奖励信号
环境的一步动态特性会判断环境在每个时间步如何决定状态和奖励。可以通过指定每个潜在 $\large \acute{s},r,s$ and $\large a$ 的 $\large p({\acute{s}}',r|s,a) \doteq \mathbb{P}(S_{t+1}=\acute{s},R_{t+1}=r|S_{t}=s,A_{t}=a)$ 定义动态特性。
一个（有限）马尔可夫决策过程 (MDP) 由以下各项定义：

1. 一组（有限的）状态 $\large S$ （对于阶段性任务，则是 $\large S^{+}$ ）

2. 一组（有限的）动作 $\large A$

3. 一组奖励 $\large R$

4. 环境的一步动态特性

5. 折扣率 $\large \gamma \epsilon [0,1]$