1000 tokens/s 到底有多快？我用 8 次 API 请求，测了 4 款国产大模型-尧图网站建设

最近，我在小米 MiMo 的内测申请页面看到一个很夸张的数字：MiMo-V2.5-Pro-UltraSpeed 峰值速度 1000 tokens/s。页面同时给出了几个参照：行业模型平均约为 50～100 tokens/s，行业高速模型约为 400 tokens/s。单看数字，1000 tokens/s 是 100 tokens/s 的 10 倍，似乎意味着以前要等 10 秒的回答，现在 1 秒就能生成完。但模型速度真能这样换算吗？我没有等到内测资格，而是先在同一个 API 平台、同一台电脑和同一网络下，对 4 个模型做了一轮小规模流式测试。结果比“谁快谁慢”更有意思：决定使用体验的，不只是 TPS；同一个模型在云端的速度波动，有时比不同模型之间的差距还大。一、50～100 tokens/s，究竟是快还是慢？Token 是大模型处理和生成文字的基本单位。它不严格等于一个汉字，也不严格等于一个英文单词；不同模型的分词器还可能把同一句话切成不同数量的 Token。TPS（tokens per second）通常表示模型进入连续生成阶段后，每秒能输出多少个 Token。假设回答长度为 1000 个 Token，只计算生成阶段，理论耗时如下：生成速度生成 1000 Token 的理论时间50 tokens/s20 秒100 tokens/s10 秒400 tokens/s2.5 秒1000 tokens/s1 秒因此，50～100 tokens/s 并不算“不能用”。普通问答只有几百 Token 时，它已经能形成较流畅的打字效果；但如果要生成长代码、长报告，或者 Coding Agent 要连续调用模型几十次，差距会迅速累积。二、模型“开始得快”和“写得快”是两回事一次流式请求大致会经过下面几个阶段：发送请求 → 网络传输/服务排队 → 处理输入上下文 → 输出首字 → 持续生成 → 完成所以我记录了三个核心指标：TTFT（首字延迟）：从发送请求到看到第一个字要等多久，最影响“它有没有立即理我”的感觉。TPS（持续生成速度）：开始输出以后，每秒生成多少 Token，

1000 tokens/s 到底有多快？我用 8 次 API 请求，测了 4 款国产大模型

相关新闻

适合新手的AI作曲工具推荐，零基础也能轻松生成原创旋律

Kubernetes RBAC 实战指南

别人带硕博轻松冲基金，我却耗在重复指导，差距在哪？

RedNotebook：一款强大易用的跨平台日记应用，助你轻松管理个人知识

acme.sh：用 Shell 脚本搞定 SSL 证书这件事

BatteryML：企业级电池寿命预测机器学习框架与生产就绪解决方案

stable-diffusion-webui：本地 AI 绘图的全能控制台

SolidWorks_曲线与曲面设计3_组合曲线创建

技术洞察：Social Analyzer社交情报分析系统架构解析

PVZ Toolkit完整指南：植物大战僵尸终极修改器使用教程

暗黑破坏神2现代化改造指南：D2DX让经典游戏重获新生

企业机房UPS只接服务器不接网络行吗

8个结构化Prompt策略提升ML工程师工作流效率

意甲幻想足球的机器学习实战：阵容优化与临场风险建模

MDP与强化学习：智能决策建模的双引擎实战指南