打赏

相关文章

强化学习/对齐(个人理解)

Bradley-Terry 奖励模型含义:给定选中和拒绝响应的隐藏状态,将其投影为标量奖励并计算偏好损失。def reward_model_loss(chosen_hidden, rejected_hidden, reward_head):r_chosen (chosen_hidden reward_head).squeeze(-1) # (B,)r_rejected (rej…

手机版浏览

扫一扫体验

微信公众账号

微信扫一扫加关注

返回
顶部