李宏毅深度强化学习- Outline
- 李宏毅深度强化学习课程评价:
- 强化学习:
-
- 举例
- 深度学习的特点:
- 强化学习方法
-
- Policy-based approach -- learn an actor
- Value-based approach -- learn a critic
- Actor-Critic
李宏毅深度强化学习课程 https://www.bilibili.com/video/av24724071
李宏毅深度强化学习笔记(二)Proximal Policy Optimization (PPO)
李宏毅深度强化学习笔记(三)Q-Learning
李宏毅深度强化学习笔记(四)Actor-Critic
李宏毅深度强化学习笔记(五)Sparse Reward
李宏毅深度强化学习笔记(六)Imitation Learning
李宏毅深度强化学习课件
李宏毅深度强化学习课程评价:
个人觉得,李宏毅教授的这门课可以说是强化学习的入门课程,对于初学者来说比较友好,老师上课举的例子很形象,很有趣,对于理解相关的概念知识非常有帮助。
课程以讲述理论知识为主,关于强化学习方面的实际应用以及代码实现较少,可以考虑完成该课程布置的作业,以加深对算法的理解。
另外,要学习深度学习的实际应用,可以考虑看莫烦的强化学习教程,与李宏毅教授的课程不同,该课程则较少涉及理论方面的知识,而侧重于强化学习算法的代码实现,也是十分有趣的实际应用。
希望大家在学完相关课程之后都能有所收获~
强化学习:
什么是强化学习
寻找一个合适的函数,将观察到的环境(environment)作为输入,目标是最大化回报(reward)(从经验中学习)
举例
- Alpha GO: 监督学习+强化学习
- chat robot: 生成对话,并对生成的对话进行评估
- play video games: 最大化整个游戏过程中的累积期望reward
深度学习的特点:
- 推迟得到的回报: 有些action可能和reward的获得没有直接的关系,还有的action可能会在最初产生负的reward,后期生成较大的正的reward
- 采取的action会对后期接受的数据产生影响
强化学习方法
- model-based
- model-free (policy-based and/or value-based)
(Alpha GO: policy-based+value-based+model-based)
Policy-based approach – learn an actor
step1: 将神经网络作为actor (模型的泛华能力较好)
step2: 衡量actor的好坏 (使用总回报reward的期望值来进行评估)
step3: 选择最好的actor
Value-based approach – learn a critic
Critic: 用来评估actor
State value function(V): 在看到某一个状态state的时候预期能够得到的累积收益Estimation of V:
- Monte-Carlo(MC): critic会观察actor πππππ \piππππ
Actor-Critic
会在之后的笔记中进行详细介绍
</div><link href="https://csdnimg.cn/release/phoenix/mdeditor/markdown_views-258a4616f7.css" rel="stylesheet"></div>