当前位置: 代码迷 >> 综合 >> 强化学习-task01
  详细解决方案

强化学习-task01

热度:27   发布时间:2024-03-06 17:43:06.0

1.定义

强化学习讨论的问题是一个 智能体(agent) 怎么在一个复杂不确定的环境(environment)里面去极大化它能获得的奖励。
在这里插入图片描述
在强化学习过程中,agent 跟 environment 一直在交互。Agent 在环境里面获取到状态,agent 会利用这个状态输出一个 action,一个决策。然后这个决策会放到环境之中去,环境会通过这个 agent 采取的决策,输出下一个状态以及当前的这个决策得到的奖励。Agent 的目的就是为了尽可能多地从环境中获取奖励。

2.特征

  1. 有 trial-and-error exploration ,它需要通过探索环境来获取对这个环境的理解。
  2. agent 会从环境里面获得延迟的奖励。
  3. 在强化学习的训练过程中时间非常重要。因为得到的数据都是有这个时间关联的,而不是 i.i.d 分布的。在机器学习中,如果观测数据有非常强的关联,其实会使得这个训练非常不稳定。这也是为什么在监督学习中,我们希望 data 尽量是 i.i.d 了,这样就可以消除数据之间的相关性。
  4. agent 的行为会影响它随后得到的数据。在我们训练 agent 的过程中,很多时候我们也是通过正在学习的这个 agent 去跟环境交互来得到数据。所以如果在训练过程中,这个 agent 的模型很快死掉了,那会使得我们采集到的数据是非常糟糕的,这样整个训练过程就失败了。所以在强化学习里面一个非常重要的问题就是怎么让这个 agent 的行为一直稳定地提升。