A little bit probability theory
Random Variable
随机变量:未知;它的值取决于随机事件的结果。用大写字母表示随机变量,观察值用小写字母表示,注意,观察值是没有随机性的。
Probability Density Function (PDF)
PDF提供了随机变量的值与样本相等的相对可能性,比如下图的高斯分布以及离散分布:
满足以下性质:
Expectation
Terminologies
以马里奥游戏为例子说明。
state and action
- agent:智能体
- state:当前状态
- action:agent采取的行动
policy
是概率密度函数,是给定当前状态s下,采取行动a的概率。
reward
state transition
状态转移函数通常是未知的,由环境决定。
agent environment interaction
Randomness in Reinforcement Learning
Actions have randomness
State transitions have randomness
Play the game using AI
Rewards and Returns
Return
因此引入折扣回报:
Randomness in Returns
Value Functions
Action-Value FunctionQ(s,a)
State-Value Function V(s)
Understanding the Value Functions
Play games using reinforcement learning
How does AI control the agent?
两种方法:
OpenAI Gym
gym是一个开发和比较强化学习算法的工具包。https://gym.openai.com/