打赏

相关文章

CANN/HCCL ReduceScatterV算子API

HcclReduceScatterV 【免费下载链接】hccl 集合通信库(Huawei Collective Communication Library,简称HCCL)是基于昇腾AI处理器的高性能集合通信库,为计算集群提供高性能、高可靠的通信方案 项目地址: https://gitcode.com/cann…

cannbot-skills SuperKernel适配

【免费下载链接】cannbot-skills CANNBot 是面向 CANN 开发的用于提升开发效率的系列智能体,本仓库为其提供可复用的 Skills 模块。 项目地址: https://gitcode.com/cann/cannbot-skills name: model-infer-superkernel description: 基于 PyTorch 框架的昇腾…

别把 SFT 里的 `packing` 当成白捡吞吐的开关:TRL 里 `bfd`、`bfd_split`、`wrapped` 真正卖掉的不是同一种东西

别把 SFT 里的 packing 当成白捡吞吐的开关:TRL 里 bfd、bfd_split、wrapped 真正卖掉的不是同一种东西 很多人做 SFT 时,一看到 packing=True 就会把它理解成“把 padding 浪费收回来,几乎没有副作用”。但我把 TRL 现在的实现、警告和一个最小模拟实验放在一起看后,结论…

手机版浏览

扫一扫体验

微信公众账号

微信扫一扫加关注

返回
顶部