打赏

相关文章

别再默认 `all_gather` 不可导:PyTorch 2.11 把 differentiable collectives 补上之后,真正危险的是你还在按旧直觉写 loss

别再默认 all_gather 不可导:PyTorch 2.11 把 differentiable collectives 补上之后,真正危险的是你还在按旧直觉写 loss 很多人做对比学习、跨卡负样本、MoE router 统计或 sequence parallel 时,一碰到 all_gather,脑子里立刻冒出一句旧经验:“这个东西默认不可导,要么…

手机版浏览

扫一扫体验

微信公众账号

微信扫一扫加关注

返回
顶部