当前位置: 代码迷 >> 综合 >> 《Reinforcement Learning : An Introduction》第一章 习题解答
  详细解决方案

《Reinforcement Learning : An Introduction》第一章 习题解答

热度:60   发布时间:2023-12-02 08:08:57.0

1.1 左右互搏 假设上面的强化学习算法不是对战随机对手,而是以左右互博的方式与自己对战来训练自己。你认为在这种情况下会发生怎样的事情?它是否学习到不同的策略?

答:

和与一个固定对手相比,会学习到一个不同的策略,因为在学习过程中对手也在不断变化。

因为对手也在不断变化,所以可能无法学到最佳策略,也可能会卡在循环里。

从平均角度而言,策略可能保持静态不变。

1.2 对称性 由于对称性,井字棋的很多位置看起来不同但其实是相同的。我们如何利用这一点来修改上面提到的学习过程呢?这种改变会怎样改善学习过程?假设对方没有利用对称性,那我们应该利用吗?对称相等的位置是否必然具有相同的价值呢?

答:

我们可以将依照对称性标记唯一状态,这样我们的搜索空间就会更小,这样我们就能更好地估计出最优策略。

如果我们的对手在比赛时没有考虑到对称性,那么我们就不应该将对称状态标为同一状态,因为对手也是环境的一部分,而这些状态下的环境是不相同的。

1.3 贪心策略 假设强化学习的玩家是贪心的,也就是说,他总是把棋子移动到他认为最好的位置,而从不进行试探。比起一个非贪心玩家,他会玩得更好,还是更差呢?可能会出现什么问题?

答:

贪婪的玩家不会探索,所以通常会比非贪婪的玩家表现更差。

如果贪心玩家对状态价值有一个完美的估计,那么这就没有问题。

1.4 从试探中学习 假设状态价值更新发生在包括试探动作在内的所有动作之后,如果步长参数随着时间而适当减小,而试探的趋势并不减弱,那么状态的价值将收敛到一组概率。我们从试探性行为中学习,或者不从中进行学习,计算出两组概率,分别会是什么?假设我们继续进行试探性的行动,哪一组概率对于学习来说可能更好?哪一组更可能带来更大的胜率?

答:

不同状态的价值的计算实际上是对这种状态的获胜概率的估计。所以我认为对状态胜率的估计应该基于从这种状态出发的最优动作之后而不是试探动作之后。

基于最优动作获得的价值函数所获得的是最优智能体的胜率。如果动作包含探索,那么获得的是训练智能体获胜的概率。

最好在不包括探索的情况下学习获胜的概率,因为这是智能体在实时游戏中的表现。

根据最优动作进行更新只会增加获胜的概率。

1.5 其他提升方法 你能想出其他方法来提升强化学习的玩家能力吗?你能想出更好的方法来解决井字棋的问题吗?

答:

我们可能会设置平局的回报值比输掉比赛的回报值更高

在更新价值之前,我们可能会尝试运行多个游戏迭代,因为这可能会给出更好的估计。