最近在折腾大模型的时候我越来越有一种很真实的感受以前是「模型好不好用」现在更多变成了「模型等得我烦不烦」。尤其是写点代码或者做长文本生成的时候一个字一个字往外蹦真的很考验耐心。DiffusionGemma 给我的感觉就不太一样。它是 Google DeepMind 在 2026 年发布的基于离散扩散的文本生成模型采用 26B 参数混合专家Mixture-of-Experts, MoE架构总参数 25.2B、活跃参数仅 3.8B属于那种「看起来很大用起来还挺轻」的类型。最直观的变化其实是速度。它不再是传统那种逐 token 输出而是用块级并行扩散去生成文本有点像不是在「打字」而是在一整段一段地「改稿子」。结果就是在单卡 H100 上能跑到 1,100 tokens/s那种流畅感确实会让人愣一下。结构上也挺有意思编码器负责理解和缓存上下文解码器在文本「画布」上并行去噪生成再加上 MoE 稀疏激活效率和能力之间做了一个比较舒服的平衡。它还支持通过|think|标记启动逐步推理模式处理复杂任务最长支持 256K tokens 上下文对长文档场景基本是直接拉满。说实话这种模型最让我有点感慨的是以前我们在追「更聪明的模型」现在已经开始习惯「又聪明又不等人」的模型了。教程链接https://go.openbayes.com/X2X0H使用云平台: OpenBayeshttp://openbayes.com/console/signup?rsony_0m6v首先点击「公共教程」找到「DiffusionGemma基于离散扩散的高速文本生成模型」单击打开。页面跳转后点击右上角「克隆」将该教程克隆至自己的容器中。在当前页面中看到的算力资源均可以在平台一键选择使用。平台会默认选配好原教程所使用的算力资源、镜像版本不需要再进行手动选择。点击「继续执行」等待分配资源。若显示「Bad Gateway」这表示模型正在加载中请等待约 2-3 分钟后刷新页面即可若显示「运行中」点击「打开工作空间」。使用步骤如下1.页面跳转后点击左侧 README.ipynb 文件依据指示输入 API 网址点击上方「运行」。2.运行完成即可点击右侧 API 地址跳转至 demo 页面。