最近,我在小米 MiMo 的内测申请页面看到一个很夸张的数字:MiMo-V2.5-Pro-UltraSpeed 峰值速度 1000 tokens/s。页面同时给出了几个参照:行业模型平均约为 50~100 tokens/s,行业高速模型约为 400 tokens/s。单看数字,1000 tokens/s 是 100 tokens/s 的 10 倍,似乎意味着以前要等 10 秒的回答,现在 1 秒就能生成完。但模型速度真能这样换算吗?我没有等到内测资格,而是先在同一个 API 平台、同一台电脑和同一网络下,对 4 个模型做了一轮小规模流式测试。结果比“谁快谁慢”更有意思:决定使用体验的,不只是 TPS;同一个模型在云端的速度波动,有时比不同模型之间的差距还大。一、50~100 tokens/s,究竟是快还是慢?Token 是大模型处理和生成文字的基本单位。它不严格等于一个汉字,也不严格等于一个英文单词;不同模型的分词器还可能把同一句话切成不同数量的 Token。TPS(tokens per second)通常表示模型进入连续生成阶段后,每秒能输出多少个 Token。假设回答长度为 1000 个 Token,只计算生成阶段,理论耗时如下:生成速度生成 1000 Token 的理论时间50 tokens/s20 秒100 tokens/s10 秒400 tokens/s2.5 秒1000 tokens/s1 秒因此,50~100 tokens/s 并不算“不能用”。普通问答只有几百 Token 时,它已经能形成较流畅的打字效果;但如果要生成长代码、长报告,或者 Coding Agent 要连续调用模型几十次,差距会迅速累积。二、模型“开始得快”和“写得快”是两回事一次流式请求大致会经过下面几个阶段:发送请求 → 网络传输/服务排队 → 处理输入上下文 → 输出首字 → 持续生成 → 完成所以我记录了三个核心指标:TTFT(首字延迟):从发送请求到看到第一个字要等多久,最影响“它有没有立即理我”的感觉。TPS(持续生成速度):开始输出以后,每秒生成多少 Token,