Reinforcement Learning

Reinforcement Learning
JJuprising1马尔可夫决策过程四大基本要件
- S状态 state
- A 动作 action
- R 即时奖励 reward 通常是 a 和 s 的函数
- 状态间的转换规则 p(s`|s,a) transition probability
对于2048这个游戏的马尔科夫过程:
基本构成
- 状态:4x4的矩阵,每个值可以是2,4,8,…,2n
- 动作:上、下、左、右
- 即时奖励:成功合成的新的数字之和
- 状态间的转换规则
- 初始状态是随机生成2在两个格子中
- 新的砖块随机出现在格子中的一个地方,可能是2或者4,随机概率位置
其他特性:
- 状态可见性:状态完全可见
- 转换概率可见性:未知
- 总奖励:所有即时奖励之和
深度Q学习
Q(s,a):在经历状态s后选择了一次a之后总的最佳平均未来奖励。



