打赏

相关文章

分布式训练为什么一做在线蒸馏就开始 teacher 很稳 student 却学不动:从 Logit Delay 到 Distill Replay Window 的工程实战

很多团队做模型压缩时,都会把在线蒸馏当成一条看起来更省事的路。Teacher 不用提前离线跑完整数据集,Student 也能边训练边吸收软标签;纸面上少了一次全量推理,预算似乎更友好。⚠️ 真到分布式训练线上,最先冒出来的却…

手机版浏览

扫一扫体验

微信公众账号

微信扫一扫加关注

返回
顶部