Reinforcement Learning

1马尔可夫决策过程四大基本要件

  • S状态 state
  • A 动作 action
  • R 即时奖励 reward 通常是 a 和 s 的函数
  • 状态间的转换规则 p(s`|s,a) transition probability

对于2048这个游戏的马尔科夫过程:

基本构成

  • 状态:4x4的矩阵,每个值可以是2,4,8,…,2n
  • 动作:上、下、左、右
  • 即时奖励:成功合成的新的数字之和
  • 状态间的转换规则
    • 初始状态是随机生成2在两个格子中
    • 新的砖块随机出现在格子中的一个地方,可能是2或者4,随机概率位置

其他特性:

  • 状态可见性:状态完全可见
  • 转换概率可见性:未知
  • 总奖励:所有即时奖励之和

深度Q学习

Q(s,a):在经历状态s后选择了一次a之后总的最佳平均未来奖励。

强化学习(八) - 深度Q学习(Deep Q-learning, DQL,DQN)原理及相关实例-CSDN博客