打赏

相关文章

LLM | REINFORCE++:好像是近期的 LLM RL 新方法

REINFORCE++ 把 GRPO“在每个 prompt 小组里归一化优势”的做法,升级为“全局 batch 上的优势标准化”,并搭配稳定的 KL 估计方式,从而提升训练稳定性和泛化表现,比 PPO 更轻量级、比 GRPO 更稳定。论文标题:REIN…

手机版浏览

扫一扫体验

微信公众账号

微信扫一扫加关注

返回
顶部