李宏毅深度强化学习笔记（一）Outline_综合

李宏毅深度强化学习- Outline

李宏毅深度强化学习课程评价：
强化学习:
- 举例
- 深度学习的特点:
- 强化学习方法
- - Policy-based approach -- learn an actor
  - Value-based approach -- learn a critic
  - Actor-Critic

李宏毅深度强化学习课程 https://www.bilibili.com/video/av24724071

李宏毅深度强化学习笔记（二）Proximal Policy Optimization (PPO)
李宏毅深度强化学习笔记（三）Q-Learning
李宏毅深度强化学习笔记（四）Actor-Critic
李宏毅深度强化学习笔记（五）Sparse Reward
李宏毅深度强化学习笔记（六）Imitation Learning
李宏毅深度强化学习课件

李宏毅深度强化学习课程评价：

个人觉得，李宏毅教授的这门课可以说是强化学习的入门课程，对于初学者来说比较友好，老师上课举的例子很形象，很有趣，对于理解相关的概念知识非常有帮助。

课程以讲述理论知识为主，关于强化学习方面的实际应用以及代码实现较少，可以考虑完成该课程布置的作业，以加深对算法的理解。

另外，要学习深度学习的实际应用，可以考虑看莫烦的强化学习教程，与李宏毅教授的课程不同，该课程则较少涉及理论方面的知识，而侧重于强化学习算法的代码实现，也是十分有趣的实际应用。

希望大家在学完相关课程之后都能有所收获~

强化学习:

什么是强化学习
寻找一个合适的函数，将观察到的环境（environment）作为输入，目标是最大化回报（reward）（从经验中学习）

举例

Alpha GO: 监督学习+强化学习
chat robot: 生成对话，并对生成的对话进行评估
play video games: 最大化整个游戏过程中的累积期望reward

深度学习的特点:

推迟得到的回报: 有些action可能和reward的获得没有直接的关系，还有的action可能会在最初产生负的reward，后期生成较大的正的reward
采取的action会对后期接受的数据产生影响

强化学习方法

model-based
model-free (policy-based and/or value-based)
(Alpha GO: policy-based+value-based+model-based)

Policy-based approach – learn an actor

step1: 将神经网络作为actor (模型的泛华能力较好)

step2: 衡量actor的好坏 (使用总回报reward的期望值来进行评估)

step3: 选择最好的actor

Value-based approach – learn a critic

Critic: 用来评估actor
State value function(V): 在看到某一个状态state的时候预期能够得到的累积收益Estimation of V:

Monte-Carlo(MC): critic会观察actor $\pi$ $π$

Actor-Critic

会在之后的笔记中进行详细介绍

        </div><link href="https://csdnimg.cn/release/phoenix/mdeditor/markdown_views-258a4616f7.css" rel="stylesheet"></div>