Reinforcement Learning

发表于2024-10-10更新于2024-10-11

广州

Reinforcement Learning

JJuprising2024-10-102024-10-11

1马尔可夫决策过程四大基本要件

S状态 state
A 动作 action
R 即时奖励 reward 通常是 a 和 s 的函数
状态间的转换规则 p(s^`|s，a) transition probability

对于2048这个游戏的马尔科夫过程：

基本构成

状态：4x4的矩阵，每个值可以是2，4，8，…，2ⁿ
动作：上、下、左、右
即时奖励：成功合成的新的数字之和
状态间的转换规则
- 初始状态是随机生成2在两个格子中
- 新的砖块随机出现在格子中的一个地方，可能是2或者4，随机概率位置

其他特性：

状态可见性：状态完全可见
转换概率可见性：未知
总奖励：所有即时奖励之和

深度Q学习

Q(s,a)：在经历状态s后选择了一次a之后总的最佳平均未来奖励。

强化学习（八） - 深度Q学习(Deep Q-learning, DQL,DQN)原理及相关实例-CSDN博客

JJuprising

蓝天白云,花草树木

原创 Reinforcement Learning

本博客所有文章除特别声明外，均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来自 yjchen！