打赏

相关文章

[学习笔记]强化学习之策略梯度

之前大概把强化学习基础看了,但是发现已经忘完了...回来补一下策略梯度trpo等等,一点一点补吧... 首先是策略梯度 之前的强化学习,是基于Q-table的,也就是基于价值函数。 决策路线大概是:策略——利用价值函数判断…

手机版浏览

扫一扫体验

微信公众账号

微信扫一扫加关注

返回
顶部