风口上的世界模型，到底是什么？-尧图网站建设

想象空间巨大但仍在早期阶段。AI圈的新风口又来了。进入2026年“世界模型”快速从学术概念站到资本和产业的中心。海外“AI教母”李飞飞创立的World Labs在年初拿下10亿美元融资估值飙至50亿美元投资方包含a16z、英伟达、AMD、Autodesk等巨头另一边图灵奖得主杨立昆离开Meta另起炉灶创办的AMI Labs仅种子轮便获得超10亿美元融资。国内同步跟进成立于2023年的极佳视界在今年三个月内连续完成三轮大额融资累计35亿元成为国内首个世界模型百亿独角兽。资金涌入的速度、规模以及头部机构的扎堆程度让不少人感慨好像回到了ChatGPT引爆市场的那一刻。几乎人人都在谈论世界模型但很少有人能说清它到底是什么。其实世界模型并非新概念。它在认知科学和深度学习领域早有讨论但真正走入大众视野是2024年前后Sora的横空出世时母公司OpenAI将其表述为“world simulator”世界模拟器强调其能“生成、预测未来画面”由此受到大范围关注。但很长一段时间里业内并未全盘接受将像素级视频生成直接等同于世界模型的说法。让这个概念真正脱离视频生成、走向产业焦点的是此后具身智能赛道的爆发其内涵趋向于一种能理解物理因果的底层能力。由于学术界迟迟未能给世界模型统一定义目前只要和“预测未来”相关的模型都开始自称世界模型。正如李飞飞所言世界模型既是当下最重要也是被滥用最严重的概念。对此「AIX财经」和多位研究世界模型的学者、具身智能创业者聊了聊试图回答三个问题世界模型究竟是什么资本为何疯抢火速催生百亿独角兽的背后这一赛道是真有潜力还是又一场泡沫01 到底什么是世界模型由于目前世界模型缺乏统一标准市场出现了“万物皆可世界模型”的乱象。做视频的、做3D的、做仿真的纷纷给自己贴上“世界模型”标签。斯坦福大学教授李飞飞团队将相关技术划分为三个功能层级渲染器解决看起来像、规划器输出动作指令和模拟器输出世界内部状态。其中模拟器被其定义为最接近世界模型的本体。智源研究院院长王仲远则将当前的主流世界模型技术路径分为四类分别是以语言为中心、以像素为中心、以三维结构为中心、以视觉表征为中心的世界模型。但他坦言这四类模型距离真正面向物理世界的基座模型有很大的距离。两种分类视角不同但他们都认为世界模型的核心不是生成逼真画面而是对物理世界的建模能力。对照这一标尺当下市场上的主要三类玩家都离“世界模型”有一定距离。第一类是视频派以Sora、Runway、可灵等AI视频生成大模型为代表本质是把世界“画”出来。它们本质上只是像素组合的概率分布停留在渲染器层。画面再逼真模型也并不理解物理规律本身。第二类是3D空间派代表是李飞飞本人的World Labs国内的创业公司VAST也押注这一方向。这类玩家构建出了几何结构但缺乏动力学规律无法触及物理本质。举个例子它知道“杯子在哪儿”不知道“杯子被推一下会怎样”因此仍卡在渲染器与模拟器之间。World Labs于去年年底推出首款空间智能产品Marble一度被业界视为世界模型的落地代表但李飞飞本人谨慎地将其称为“非正式的世界模型”。最后一类是仿真基建派代表有英伟达、Waabi、Wayve、极佳视界等它们提供物理仿真与验证平台但更多是依赖程序员写好的规则模型负责按规则生画面、生数据缺乏对物理规律的推演与泛化能力。总之目前大多数公司都尚未真正触及“模拟器本体”这一硬核层级。而且各家实质上仍是在卖内容生成服务或项目集成方案距离下一代“底层基础设施”相差很远。但正因为世界模型门槛极高、落地极难世界模型的不可替代性才更加凸显它要解决现有方案无法解决的物理因果问题。北京灵生科技合伙人王嘉明对此的描述是世界模型的本质是根据当前观测状态预测下一个观测状态。以机器人做咖啡为例想要完成这一动作先得预测咖啡杯从桌面移到咖啡机出口下方这一“世界状态”的变化再反向推导其需要执行哪些动作。这种“预测-推导”的能力正是当下具身智能落地的最大短板。为了直观理解我们将世界模型与大语言模型、视频生成模型、具身智能模型VLA进行横向对比。同样是一个杯子大语言模型能告诉你杯子是什么、描述杯子长什么样视频生成模型能画出杯子从桌上掉落的画面VLA能根据指令完成“拿起杯子”的动作而世界模型掌握的是“物理因果”它知道杯子在多大角度会滑动、多大角度会被倾覆。可以看出世界模型既不是视频大模型的视觉延伸也不是具身智能大模型的简单升级它位于更底层是那个缺失的“物理地基”。只有当一个模型能真正从原始感官中推演出物理因果它才能称之为世界模型。02 GPT-2时刻的世界模型卡在数据上弄清楚了什么是世界模型后就能理解投资人为什么疯抢。世界模型能把物理世界里的突发后果和验证成本变得可计算能直接运用到当下大火的具身智能与自动驾驶行业里。目前具身智能行业仍高度依赖真机数据采集和仿真合成数据来缓解数据短缺难题但这两条路都暴露出很大的局限性。真机数据训练出的多是对特定动作的模仿而非基于物理规律的推理能力仿真合成数据则受限于平台预设的规则一旦机器人进入家庭等非标准化场景就容易失灵。世界模型不仅能补这两个短板对数据的“包容性”也远高于具身大模型。王嘉明介绍VLA的数据必须采集特定机器人的特定动作而世界模型只需关注物体状态如何变化因此只需人穿戴设备采集即可。他打了个比方机器人在端水过程中把水洒了对于VLA来说是无用数据但对于世界模型反而是好数据因为它从中能学到“手一歪杯子会掉”这一物理规律。自动驾驶领域感知识别的技术难题已经解决但难点变成了很难采集到暴雨、结冰、施工等多重变量叠加的极端情况数据。世界模型可以构建高保真的虚拟测试场大幅降低对高风险路测的依赖。正如北京交通大学计算机学院、从事世界模型研究的博士生余萧所言世界模型相当于给这两大行业补上了“可验证性”的拼图机器人可以在虚拟世界里摔一万次再走进现实车企也可以低成本验证极限场景。图源 / pixabay然而世界模型仍处于发展早期。如果用大模型发展史作类比余萧认为当前世界模型大致处在“GPT-2 到 GPT-3 之间”的阶段因为它概念很热、Demo很强但技术路线极度分散标准混乱离真正的通用物理引擎还有很长距离。综合多位从业者的说法世界模型目前还面临着三大难题。第一道是数据这是最大瓶颈。虽然看起来世界模型对数据的要求比具身智能大模型低但难点是量大。王嘉明表示模型所需的训练数据量和模型大小呈正比一个能干活的VLA模型大概在30亿个参数而英伟达发布Zero-shot机器人世界模型DreamZero为140亿。差距的原因是具身大模型的数据回答的是“这种画面该出什么动作”而世界模型的数据还要额外回答“动了之后会发生什么、为什么”需要包括大量失败的交互数据。这类数据的获取成本不低。王嘉明透露目前主流的采集方式仍为人工采集行业均价在两三百元一小时且任务越复杂、动作精度要求越高单价越贵。余萧则指出了另一重难题真实交互需频繁重置场景与校准传感器公开数据往往更偏向于采集成功的动作恰恰缺乏“杯子滑落、碰撞倾覆”这类关键的失败样本加之物理变量的组合呈指数级爆炸导致数据需求几乎是个无底洞。他表示对大语言模型来说从网上获取大量文本的边际成本很低但对世界模型来说一条真实机器人交互轨迹往往要算人力时间、机器人时间、场景重置、设备损耗和数据清洗。至于用合成数据填补缺口在逻辑上也并不可行。王嘉明解释生成精准的合成数据前提是已经拥有一个靠谱的世界模型这便陷入了典型的“鸡生蛋、蛋生鸡”的死循环。第二道难题在于推理效率与物理认知的缺失。一方面庞大的参数量直接导致推理延迟居高不下。市面上的机器人在执行倒咖啡、叠衣服等动作时响应速度仍远落后于人类难以满足物理世界对实时交互的要求。更核心的挑战是物理认知本身还没走通。大语言模型的推理能力建立在人类已将海量因果逻辑、推理步骤编进文本数据的基础上它本质上是在学习人类整理好的符号规律。而世界模型试图跳过这一层直接从感官信号中逆向推导物理规律。这条“去语言化”的技术路径比文本路径更难目前也缺乏已被验证的成功路线。第三道是评测和落地。图像生成好不好能拿指标和人眼快速对比但真实环境中的摩擦、形变、接触度等参数不仅很难测全、测准还常常带有不确定性导致很多场景根本不存在唯一的标准答案。这意味着世界模型即便做出来了也很难像大语言模型那样靠基准测试快速迭代落地节奏天然会慢一拍。世界模型有望解决具身智能和自动驾驶领域的落地难题但市场可能高估了世界模型在短期内的能力。03 是AI基建还是又一场泡沫弄清世界模型的潜力与局限后这门生意究竟能否赚钱也就有了一个较为清晰的答案。综合多位从业者的判断目前市场上能拿出的产品几乎都还停留在渲染器和仿真层没有谁真正抵达模拟器本体。当下确实有人通过世界模型赚到了钱但都不是因为“世界模型”本身是它周边的几门生意。如果按付费模式划分主要有三种且几乎全在B端。一是卖“训练场”即给机器人公司提供虚拟训练环境、给车企提供驾驶仿真系统一般按项目或订阅收费。比如Waabi、Wayve的客户主要是车企做的是自动驾驶算法的闭环仿真验证极佳视界则把同一套逻辑搬到具身智能中客户是机器人公司。这是三条路中与模拟器层最为接近的一条它卖的是对物理世界的推演能力本身。二是卖“合成数据”即用世界模型生成带物理因果标签的数据卖给具身智能和自动驾驶公司填补真机数据的缺口。这条路位于模拟器与渲染器之间生成的数据质量越高、物理标签越准便越接近真正的世界模型输出。但这条路有一个尚未解决的根本问题合成数据本身的物理保真度还没办法被独立证伪。一旦生成数据的物理逻辑不准确下游模型反而会被“污染”。所以目前这门生意的客户接受度更多依赖供需双方的私下校验而非行业公认的评测标准。图源 / pexels三是卖“内容生产”这主要面向游戏、影视、空间设计输出可交互的3D场景这条路离C端最近、最容易出爆款Demo可本质上更接近渲染器层护城河存疑。王嘉明坦言世界模型的商业化仍处在探索期上述三条路径仅是雏形整个行业远未跑出标准答案。正是这种不确定性让资金疯狂涌入这一赛道。“越不明朗越抢投的逻辑与十年前的自动驾驶如出一辙。”王嘉明认为今年世界模型的融资热更像投资人驱动的提前布局“当年大家都说自动驾驶马上要落地结果到现在已经过去了快10年。但如果你现在才去投自动驾驶显然已经太晚了。同理世界模型正处于想象空间巨大、但尚未规模落地的时间窗口。”他透露近期有大量投资人向其咨询世界模型的技术细节市场关注度已从概念炒作转入实质性的押注阶段。而参照大模型“百模大战”的剧本世界模型赛道的洗牌可能会来得更猛、更快。随着英伟达、腾讯、阿里等巨头下场那些没有落地场景、缺乏数据闭环、只靠Demo撑门面的公司会加速出局。可以明确的是世界模型并非伪概念其对物理世界的理解与预测是通往更高阶智能绕不开的一环但同样确定的是这轮融资热里确实有不少“伪世界模型”。原文链接风口上的世界模型到底是什么-36氪

风口上的世界模型，到底是什么？

相关新闻

多尺度特征融合与YOLO模型结合：提升目标检测精度的核心技术解析与实践

终极指南：3个免费油猴脚本让你的浏览器体验飙升10倍！

关于动态规划【力扣1143.最长公共子序列的思考】

为什么选择FastAPI-SQLAlchemy？5大优势让你轻松构建高性能API

Flutter游戏资产管理：图片、字体、音效的高效管理

如何快速下载E-Hentai图库：E-Hentai-Downloader完整使用指南

如何快速下载E-Hentai图库？2025年超实用E-Hentai Downloader完整指南

aight核心组件深度解析：es5-shim、dom4、html5shiv的完美融合

Ascend C：BitMode 2D矩阵搬运

管理者的六个层次

AI Coding 六个月真实ROI账本：产品经理的血泪教训，研发的冷静忠告

审计来了，数据权限全开——审计走了，怎么确保权限全部关掉？

终极指南：如何将JSXBIN二进制文件转换为可读JSX源代码

终极指南：如何彻底重置Navicat Mac版14天试用期

AI视频编辑自动化：基于文本转录与智能体协作的video-use实践指南

utcpio社区生态：参与openEuler开源项目的完整指南

抖音无水印下载终极指南：douyin-downloader让你快速保存任何视频

0.69B参数实现中文多模态AI：揭秘Qwen3-SmVL模型融合技术的完整实战指南