当前位置: 代码迷 >> 综合 >> 李宏毅深度强化学习笔记(一)Outline
  详细解决方案

李宏毅深度强化学习笔记(一)Outline

热度:34   发布时间:2023-10-12 10:53:52.0

李宏毅深度强化学习- Outline

  • 李宏毅深度强化学习课程评价:
  • 强化学习:
    • 举例
    • 深度学习的特点:
    • 强化学习方法
      • Policy-based approach -- learn an actor
      • Value-based approach -- learn a critic
      • Actor-Critic

李宏毅深度强化学习课程 https://www.bilibili.com/video/av24724071

李宏毅深度强化学习笔记(二)Proximal Policy Optimization (PPO)
李宏毅深度强化学习笔记(三)Q-Learning
李宏毅深度强化学习笔记(四)Actor-Critic
李宏毅深度强化学习笔记(五)Sparse Reward
李宏毅深度强化学习笔记(六)Imitation Learning
李宏毅深度强化学习课件

李宏毅深度强化学习课程评价:

个人觉得,李宏毅教授的这门课可以说是强化学习的入门课程,对于初学者来说比较友好,老师上课举的例子很形象,很有趣,对于理解相关的概念知识非常有帮助。

课程以讲述理论知识为主,关于强化学习方面的实际应用以及代码实现较少,可以考虑完成该课程布置的作业,以加深对算法的理解。

另外,要学习深度学习的实际应用,可以考虑看莫烦的强化学习教程,与李宏毅教授的课程不同,该课程则较少涉及理论方面的知识,而侧重于强化学习算法的代码实现,也是十分有趣的实际应用。

希望大家在学完相关课程之后都能有所收获~

强化学习:

什么是强化学习
寻找一个合适的函数,将观察到的环境(environment)作为输入,目标是最大化回报(reward)(从经验中学习)

举例

  1. Alpha GO: 监督学习+强化学习
  2. chat robot: 生成对话,并对生成的对话进行评估
  3. play video games: 最大化整个游戏过程中的累积期望reward

深度学习的特点:

  1. 推迟得到的回报: 有些action可能和reward的获得没有直接的关系,还有的action可能会在最初产生负的reward,后期生成较大的正的reward
  2. 采取的action会对后期接受的数据产生影响

强化学习方法

  1. model-based
  2. model-free (policy-based and/or value-based)
    (Alpha GO: policy-based+value-based+model-based)

Policy-based approach – learn an actor

step1: 将神经网络作为actor (模型的泛华能力较好)

step2: 衡量actor的好坏 (使用总回报reward的期望值来进行评估)

step3: 选择最好的actor

Value-based approach – learn a critic

Critic: 用来评估actor
State value function(V): 在看到某一个状态state的时候预期能够得到的累积收益Estimation of V:

  1. Monte-Carlo(MC): critic会观察actor πππππ \piππππ

Actor-Critic

会在之后的笔记中进行详细介绍

        </div><link href="https://csdnimg.cn/release/phoenix/mdeditor/markdown_views-258a4616f7.css" rel="stylesheet"></div>