项目 Fetch 第二阶段:Claude Opus 4.7 完成任务速度比人类团队快 20 倍!
项目 Fetch 第二阶段Claude Opus 4.7 完成任务速度比人类团队快 20 倍2026 年 6 月 18 日作者 Michael Ilie、C. Daniel Freeman 和 Kevin K. Troy 发布了项目 Fetch 第二阶段的相关情况。2025 年 8 月他们进行了一项实验探究 Claude 能在多大程度上帮助非机器人专家的 Anthropic 员工使用现成的四足机器人机器狗完成复杂且有趣的任务此项目命名为“项目 Fetch”。结果显示使用当时最先进的模型 Claude Opus 4.1 的团队表现明显优于只能依靠互联网和自身智慧的团队借助 Claude 的团队完成的任务更多速度也更快。在把同事们拉到仓库进行实验之前他们先确认了 Opus 4.1 是否能独立完成这些任务答案是否定的它在连接机器人这一前期任务上就遇到了困难和没使用 Claude 的团队一样。不过AI 模型发展速度极快。他们认为是时候重新审视项目 Fetch 了看看新一代模型是否能超越上一代。结果是Claude Opus 4.7 在无人协助的情况下完成参与者不到一年前完成的所有任务的速度比最快的人类团队快了约 20 倍。但这并不意味着大语言模型LLM已经解决了机器人技术的所有问题。最新的 Claude 模型在使用机器人精确移动沙滩球项目 Fetch 中的“取物”环节时仍面临挑战且这些实验中的任务都未涉及机器人控制中更具挑战性的底层元素比如制定特定的驱动策略。然而他们再次看到一种模式首先模型对人类有帮助接着人类对模型有帮助最后模型基本能够独立完成任务。这种模式在网络安全领域已被见证如今在 AI 与现实世界的交叉领域同样的趋势也开始显现。我们做了什么最初的项目 Fetch 要求 Anthropic 员工组成团队随机分配是否使用 Claude完成以下步骤使用制造商提供的控制器操作机器狗连接机器狗的视频和激光雷达传感器编写并运行手动控制机器狗的程序开发监测机器狗空间路径的方法编写检测沙滩球的程序最后将所有步骤整合起来实现自动取球。在这次自动更新实验中没让 Claude 使用物理控制器也没评估研究人员使用 Claude 编程的控制器取球所需的时间不过确认了其按预期工作。对于其余任务使用 Claude Code 中的自适应思维将努力程度设置为最大对 Opus 4.7 进行了三次试验。测量了每个目标的耗时并对模型的成功率进行了定性评估。研究人员的工作仅限于将运行 Claude Code 的笔记本电脑连接到机器狗输入初始提示批准命令以及批准模型进入下一个任务。Claude 在哪方面表现出色简单来说在 8 月至少有一个人类团队完成的所有任务中Opus 4.7 完成相同任务的速度至少快了 10 倍。如果考虑两个人类团队都完成的四项任务Opus 4.7 的平均速度比未使用 Claude 的团队快 37 倍以上比使用 Claude 的团队快 18 倍以上。该表格比较了原团队使用 Claude 的团队和未使用 Claude 的团队与 Opus 4.7 在第二阶段所有测试任务中的速度。人类在选择与机器狗传感器交互的不同方法时遇到了困难而 Opus 4.7 能够迅速确定最佳路径。它编写的大部分代码第一次运行就有效在最初的实验中使用 Claude 的团队和未使用 Claude 的团队并非如此。实际上从 Opus 4.7 生成的代码量也能看出其效率它比两个人类团队都更成功而生成的代码量几乎比使用 Claude 的团队少了 10 倍。Opus 4.7 并非完美无缺。例如它默认使用了过时的目标检测算法。但即便如此它仍能找到解决办法并得出有效的解决方案。他们发现模型完成步骤的耗时绝对值在任务内的差异很小。不过前面提到的次优算法选择可能是导致其中一次沙滩球检测试验比其他试验耗时长得多的原因。总体而言对于本次实验中其能力范围内的任务Claude 现在已经相当可靠。下一节将分析 Claude 仍无法完成的任务。值得强调的是就像他们在上一篇文章中所做的那样这一进展并非是为提高模型的机器人技术能力而刻意努力的结果。与大语言模型发展史上的许多其他进步一样这些改进源于更广泛的模型扩展。Claude 在哪方面遇到了困难经过一些练习人类可以用手操控机器狗轻轻地将沙滩球推回机器人出发的基地一片人造草坪。这需要能够迅速感知球是否偏离了路线该误差与之前的指令有何关联球现在的位置以及如何调整后续输入以更精确地移动球。这是一种人类擅长的闭环控制至少在犯了一些错误并从中学习之后。在第二阶段的实验中Claude 难以把握这种微妙的控制。就像那些需要编写自动取球程序的人类一样Claude 能够让机器人移动到球的后面并将其定位以将球撞回起点。但这些操作的控制效果不佳而且和人类参与者一样没有成功。一位比第一阶段志愿者更有机器人技术经验的研究人员成功完成了编写自动取球程序的任务。他们认为假以时日并提供更多支持当前版本的 Claude 很有可能做到同样的事情。不过他们接下来关注的是模型能否以在项目 Fetch 其他任务中展现出的速度和可靠性完成这一最终任务。这意味着什么在撰写第一阶段的报告时他们强调了大语言模型如何为需要使用机器人的非专家人类提供帮助。现在这种帮助比以往更加显著。模型现在能够更快地独立完成以前需要人类和模型协同编程的工作这意味着人们可以更快地过渡到控制和使用机器人。而且对于某些任务人类在控制机器人方面可能仍然比手握虚拟操作杆的 AI 模型更出色。有趣且不同的是他们似乎正越来越接近一个模型能够相对轻松地使用现成物理工具的世界——至少在有限的用途上是如此。这类似于 AI 模型在向更具自主性的编码过渡时使用现有的软件编辑工具如字符串替换。他们可能正进入“物理”自主 AI 的早期阶段。要了解模型使这些物理工具更加定制化的能力还需要进行更多研究比如编写针对特定任务的控制策略或设计机器人系统。而且要实现这种更广泛的、具备物理能力和适应性的语言模型愿景可能会面临重大障碍。但正如他们所见模型能力看似巨大的差距可以迅速缩小。不久前模型自己构建软件工具似乎还很荒谬但现在这正在成为现实。因此他们不应排除在硬件领域出现同样发展轨迹的可能性。更新于 6 月 18 日修正了项目 Fetch 第一阶段的日期。脚注1. 他们报告的是 Claude Opus 4.7 的结果因为在进行本次实验时它是他们最先进的非 Mythos 级模型。对 Claude Mythos Preview 的初步试验表明由于实验设置和模型服务方式的原因它无法与其他模型进行公平比较。相关内容自主编码与专业知识的持续回报为生物学中的智能体铺平道路衡量大语言模型对 N 日漏洞利用的影响在网络安全领域现实世界中的大部分危害来自 N 日漏洞即那些已经公开披露但仅在部分设备上得到修复的漏洞。在这篇文章中他们评估了大语言模型在加速和自动化开发 N 日漏洞利用过程中的作用。订阅前沿红队时事通讯获取他们最新的红队研究和发现的更新。产品ClaudeClaude CodeClaude Code EnterpriseClaude CoworkClaude DesignClaude SecurityClaude for ChromeClaude for SlackClaude for Microsoft 365Skills下载应用定价登录 Claude模型MythosFableOpusSonnetHaiku解决方案AI 智能体代码现代化编码客户支持教育企业金融服务政府医疗保健法律生命科学非营利组织安全小企业初创企业Claude 平台概述开发者文档定价市场区域合规Claude on AWSGoogle Cloud’s Vertex AIMicrosoft Foundry控制台登录资源博客Claude 合作伙伴网络社区连接器课程客户案例Anthropic 的工程团队活动深入了解 Claude Code深入了解 Claude Cowork深入了解 Claude 企业版深入了解 Claude 安全版插件由 Claude 提供支持服务合作伙伴教程用例帮助与安全可用地区状态支持中心公司Anthropic职业机会政策经济未来研究新闻Claude 的宪法Claude 军团AI 指数增长政策负责任的扩展政策安全与合规透明度条款与政策隐私政策消费者健康数据隐私政策负责任的披露政策商业服务条款消费者服务条款使用政策

相关新闻