文 / 之丰上周豆包正式开始收费了。它推出了一个专业版分成三档价格最高级的套餐包年费用达到了5088元。紧接着一向以价格屠夫闻名天下的DeepSeek也要更换计价方式。实行新的峰谷定价模式后每天上午9点到12点、下午2点到6点算高峰调用成本直接翻倍。图源DeepSeek开放平台所有看似馈赠的礼物都暗中标好了价格。ChatGPT今年2月初就往免费用户对话框里塞广告上星期还跑去法国大举招商广告推送的密度一下子增加。白嫖AI的时代似乎马上要结束了。去年这时候各家还在打价格战现在大家都在想到底怎么能让AI这门生意不再是只进不出的无底洞1、商业化落地两头堵一家AI公司想赚钱无非两条路。要么多收钱要么少花钱。但现在两头都堵住了。过去几年大家想的都是怎么把用户规模冲上去。毕竟互联网那套打法太深入人心了。前期疯狂烧钱拉用户亏钱不要紧等用户规模够大了成本自然摊薄。但互联网的边际成本几乎是零多一个用户访问服务器成本几乎不涨。Chatbot烧钱三年还是AI时代的“新大陆”吗AI产品更接近制造业逻辑用户规模冲上去算力成本也跟着冲上去了。因为AI的成本是刚性的。多一个用户问一句话模型就得实打实跑一次推理烧一次算力。用户越多对话越多烧得就越多。月活用户9亿的OpenAI去年净亏损385亿美元到了今年第一季度情况也没有改善公司每收入1美元就要赔1.22美元。豆包这边尽管日均token调用量已经达到了180万亿日收入却不足100万元。在ChatGPT询问“如何学习AI”的回答底部出现了广告另一方面算力供给本身就是稀缺资源这让算力价格一直被顶在高位总成本下不来。现在来看算力供给的约束是很硬的物理墙没那么容易突破。先是电。Gartner预测2030年全球数据中心用电量将超过1200TWh届时电网供电将无法满足需求。再是芯片。全球高阶AI芯片的先进封装几乎全靠台积电但台积电的产能扩得再快英伟达一家就能吃掉六成以上剩下那四成还要被几十家公司抢有钱也排不到号。更何况AI形态正在从一问一答的Chatbot转向需要持续运行的Agent。Agent要将人类给的几行任务转化为在后台进行成百上千次的自我推理、工具调用与记忆吞吐这个转变对算力的需求是数量级的跃升。所以说算力成本面临双重夹击。调用量涨多少成本就跟着涨多少规模无法摊薄成本供给又还无法满足持续攀升的需求成本降不下来。那就涨价多收钱不就行了吗在To B的生产力场景提价没问题。毕竟客户买的是解决复杂专业问题的能力智能上限和真实能力是第一约束企业能接受为此付出高成本。无论是Anthropic的ARR暴涨、智谱的股价上天还是workbuddy的广受好评都说明了这一点。但在ToC场景里情况完全不同。2025年ChatGPT的9亿周活跃用户中个人订阅用户约5000万占比仅约5%。国内的付费意愿更低。在免费广告的互联网模式的长期浸泡下国内用户没有养成为独立软件付费的习惯。5月初豆包试水订阅时豆包 笨还收费就冲上了热搜。说白了现在普通用户对ToC的AI产品是没有忠诚度谁用起来方便和顺手就用谁。别说提价了就算从免费到付费都会赶跑一堆人。那面前剩下给企业的路就是在AI完成同等任务时能不能消耗更少的算力资源这就是现在整个行业都在干的事情效率优先。2、让每一分算力都花得值从里到外现在行业每一层都在沿着效率思路做事。在最底下的硬件层连英伟达都觉得光靠GPU不够了。今年英伟达在GTC大会上推出了一种叫LPU的新芯片基于它去年获得技术授权的Groq打造专门优化AI推理场景。怎么理解GPU擅长高并发的大规模计算像一支万人方阵一起冲锋现在更多是用在大模型的预训练上去提高智能上限。LPU像一个精锐小队擅长快速出击完成任务。日常面向普通用户的推理场景其实不需要千军万马同时出击响应又快、又省钱才是性价比最高的。芯片之上是模型架构。MoE混合专家架构这两年成了主流它的妙处是模型的总参数可以堆到万亿级别保证脑容量够大但每次干活只激活其中一小撮参数做到又强、又省。这可以理解为每次接到任务一家公司会按需调用从全体人员中挑选出最合适这个任务的那几个专家去干活。把激活率压低难更难的是要选对专家不然该激活的没激活答案质量就崩了。比如DeepSeek V4 Pro总参数1.6万亿每次只激活490亿相当于只动用了3%的精锐员工。结果呢编码能力逼近顶级闭源模型输出价格只有GPT-5.5的八分之一。腾讯前段时间开源的hy3 preview也是这个路数。295B参数、激活仅21B相当于能力接近300B级模型成本却是20B级别。上了OpenRouter之后开发者涌进来用除了免费也是因为这个体量下性价比确实能打。显然是验证了这个方向走得通最近腾讯灰度内测的AI助手小微用的也同样的思路。小微背后的模型叫WeLM总参数800亿但每次只激活30亿激活率低到3.75%比目前国内极致成本性能的代表DeepSeek-V4-Flash激活率4.6%还要低。为什么要把激活率压这么低因为以微信月活14亿的体量一旦小微全量开放每天的推理量是天文数字模型性价比不够高的话光电费就能把利润吃干净。所以小微绝大多数日常请求交给又快又便宜的WeLM碰上真正的硬骨头也有合作模型兜底。在模型跑的过程中还能靠工程巧劲再榨一轮算力。比如DeepSeek等等都在用的一招叫KV缓存复用意思是你跟AI反复聊同一个话题系统提示词、常用前缀这些重复内容不需要每次都从头算直接调上次的计算结果就行。相当于你通勤次数多了熟悉路线后就不用每次都重新导航。除了工程手段DeepSeek还给出一个新招那就是用价格杠杆来优化算力调度。在DeepSeek新的计价方式下平峰时段价格不变缓存命中依然压到接近免费。这等于用价格信号把一部分负载从白天引导到夜间低谷期让原本闲置的算力被利用起来。同一批GPU24小时整体利用率更高单位成本自然就降低了。前面说到到了Agent时代算力的问题是更棘手的。Agent干活时大量token其实花在了重复搬运信息上不是真正生产新东西。多个Agent协作时更夸张它们聚在一起就像开低效会议一样反复确认已经讨论过的背景。任务越长程空转越严重。谷歌的A2A协议和Anthropic的MCP协议就是冲着解决这个问题来的。简单来说MCP能让单个Agent内部复用上下文不用每次从头来过A2A让多个Agent之间共享已有成果避免重复劳动。一个管内耗一个管重复配合起来减少Agent协作时的无效推理。效率优先不只是企业的一厢情愿用户的需求本身也在分化。有一个衡量市场AI付费意愿的指标叫LLM Token支出指数最近持续走低。指标回落的背后是用户在加速离开那些昂贵的、参数巨大的前沿模型转头涌向性价比高、专门优化过的轻量级和MoE模型。图源Citadel Securities的报告《Tokennomics》针对这些现象最近Citadel Securities给出的判断一针见血前沿人工智能和日常everyday人工智能的使用正在出现分化的迹象。换句话说前沿AI追求的是智能上限日常AI追求的是极致效率已经不能用同一把尺子比较两种AI路线了。这不是说前沿模型不重要了。头部大模型依然会不断追求智能上限这部分的需求也是有的。但大家已经意识到只有少数专业或者复杂化的场景值得调用昂贵的AI模型大多数场景下其实可以主动降级到性价比更高的模型。毕竟一家公司不会让首席分析师去接前台电话模型使用也是一样大炮打蚊子只会浪费资源。而效率优先做成了企业和用户两头都能受益。企业这头单次推理成本压下来利润就能看得见。另一边企业端成本降下来后还能反过来打开降价空间。价格一降原本被价格挡在门外的用户进得来付费规模才能健康地往上走形成正向循环。3、做人人可用的AI这段时间除了To C端AI产品涨价巨头们也在缩减内部员工的token使用量。微软已经开始取消内部的Claude Code 许可让员工转向自家内部更便宜的Copilot CLI。亚马逊明确要求员工不要为了用AI而用AIMeta也撤下了内部的token消耗排行榜。结果就是大家被逼着去学习如何最大化利用token。一个懂行的工程师确实能把AI的账单压得很低。他知道怎么精简提示词、控制上下文长度、避免让模型反复读同一份资料。对他来说这些都是顺手学习的事。近期CSDN社区上有关节省token的技术帖子但有多少普通用户能读懂这些省token的技术帖子又能每次有意识地控制token使用他们更可能是一直在为远超实际需要的算力买单自己也不知道如何解决。这个落差不应该由用户来填。怎么更高性价比地使用AI应该从用户身上挪到机制层面。理想的情况是用户不需要知道背后有几种模型在跑系统能判断这个简单任务交给便宜的小模型那个任务复杂才调用贵的模型。就像你用搜索引擎不需要知道后面有多少台服务器在响应你一样。只有这样更多像你我这样用AI的普通人才能从这项新技术中受益。说到底技术的价值从来不在于它能做到多极致而在于它能触达多少人。如果AI能力不能为人人所用它就只是一场精英的狂欢。就像电力没有走进每一个家庭之前它只是工厂的特权互联网铺到每一个县城之前信息鸿沟照样横亘在那里。AI也是一样效率优先不只是一个商业命题它更是一个技术平权的问题。从少数人的工具变成所有人的基础设施是每一次技术革命的关键时刻。而AI的普及不取决于最强的模型理论上能做什么而取决于大规模跑AI的成本能压到多低。现在AI正站在这个时刻的门口效率优先就是推开这扇门的那双手。