这项由Frontis.AI旗下Horizon Research团队完成的研究于2026年6月22日以预印本形式发布编号为arXiv:2606.23654v1研究领域归属于计算机科学·计算与语言cs.CL。感兴趣的读者可以通过该编号在arXiv平台上查阅完整论文。一、为什么办公室才是AI最难通过的考场每天早上数以百万计的职场人打开电脑面对的是一堆混杂的事务这边要从同事发来的Excel表格里整理数据那边要把一段会议录音转成项目日报还要把PDF版的方案转化成一页精美的HTML展示页面。这些任务听起来很普通但对AI来说却像是一场同时考察语文、数学、美术和体育的综合考试。过去几年AI助手也叫大语言模型可以理解为能读懂语言并生成回答的智能程序的能力突飞猛进但大多数衡量它们能力的考试其实相当片面——有的只考答题即回答知识问答有的只测试它能不能写代码却很少有人去考察当AI真正坐进一间有真实员工、真实文件、真实业务需求的办公室时它究竟表现如何。正是看到了这个空缺Frontis.AI的研究团队决定做一件不太一样的事——不去凭空设计考题而是直接从公司内部几个月真实的工作记录中提炼出基准测试让AI在真正来自职场的任务面前接受检验。这个测试集被命名为EnterpriseClawBench。研究团队将整个系统比作一套爪子Claw因为它抓取的是真实工作场景而驱动这套爪子的框架就是所谓的harness可以理解为给AI穿上的一套工作装备让它能调用工具、操作文件、完成任务。研究的核心发现只需一句话概括即便是当前最强的AI组合在这套真实企业考场里的最高分也不过66.3分绝大多数组合的平均分只有48.6分——这个成绩放在任何一家公司的年终考核里都不算及格。二、从乱糟糟的工作记录到严格的考题这套出题机器是怎么运转的理解EnterpriseClawBench首先要理解它的原材料从哪里来。研究团队的公司——一家拥有百余名员工的AI创业公司——在2026年3月至5月间将员工与内部AI助手之间的所有对话、上传的文件、工具调用记录以及生成的输出文件全部保存下来。这些记录就像一座未经整理的矿山里面藏着真金但也混杂着大量无用的石头。出题流程可以用淘金来比喻。矿山里最初有5291条原始任务记录研究团队搭建了一套四道平行闸门的过滤装置。第一道闸门检查长度——如果一条记录里用户的消息只有一个问号或者寥寥数字根本无法判断意图就直接淘汰这道关卡过滤后剩下5181条。第二道闸门检查输入文件——如果任务声称依赖某个附件但这个文件根本找不到那就必须剔除否则AI没有原材料失败就不是能力问题而是材料缺失问题这道关卡留下4896条。第三道闸门处理信息遮蔽恢复——企业数据里经常有被打码或替换的URL和路径如果这些信息能从上下文中可靠还原就保留否则淘汰剩下4286条。第四道闸门检查网络依赖——如果任务要求AI去访问一个外部链接但这个链接在测试时根本打不开那这道题就没法稳定地重复考也要去掉剩下5003条。这四道闸门同时运转共同通过的有3813条候选记录。但这还不够因为很多记录虽然通过了机械检查却依然无法形成一道清晰的考题——有的是员工发了一句极度简短的消息连原来的AI助手都没搞清楚他想要什么直接反问你是想要A还是B这类没有明确目标的任务同样被排除。经过这轮自包含性审核最终精炼出852道可以重复使用的基准任务。值得一提的是研究团队还从这852道题中人工精选并核查了120道题组成一个更小但质量更高的Lite版考卷用于主要的排行榜评估。这120道题每一道都经过人工审核确保公平、可靠、有意义。三、这852道考题长什么样职场版各科考试的全貌把这852道题按员工角色分类可以看出职场真实需求的构成。产品和项目管理类的任务最多占了26%涉及写项目日报、整理PRD产品需求文档、生成可视化展示页面等。工程和IT类紧随其后占20%涉及解释API配置、比较技术框架、分析代码日志等。人事行政类占12%包括计算离职方案的薪酬成本、生成面试评估报告、核查考勤记录等。此外还有高管支持、销售客户、市场营销、财务运营等类别每类都有自己的专属子技能整体扩展出45个具体的技能子类。这些任务用到的输入文件和输出文件同样五花八门。输入材料涵盖Markdown文档占29%、Word文件18%、图片16%、PDF8%、表格7%等十余种格式要求输出的文件则以Markdown39%和纯文本32%为主但也包括HTML页面、Word文档、表格、幻灯片、图片等。有些任务甚至要求同时交付多种文件所以887个交付物需求分布在852道题上平均每道题超过一个。这种多样性正是EnterpriseClawBench区别于其他测试集的根本所在。它不是在问AI谁发明了蒸汽机这样的知识题而是在要求AI读懂这份会议录音文字稿结合市场情况给我输出一份格式规范的评估报告——这才是真正的办公室日常。四、如何给AI的工作成果打分一套两层裁判系统给AI的工作打分本身就是个挑战。研究团队设计了一套两层裁判系统可以用餐厅评分来类比。第一层是卫生检查员——负责检查硬性规定是否达标。要求输出一个Excel文件那就必须是Excel格式不能给个Word来代替。文件里不能有未填写的占位符比如【请在此填写数字】这种没有真正替换掉的模板文字。文件必须能正常打开不能损坏。程序不能报错崩溃。这些硬性规则不涉及任何主观判断要么通过要么不通过。第二层是美食评论家——负责评价输出内容的质量分五个维度打分。第一是扎实的准确性即输出内容是否真实反映了输入材料里的信息有没有凭空捏造或遗漏关键数据。第二是任务相关性即AI的输出是否真正回应了用户的需求而不是跑题了。第三是实质深度即内容有没有真正做到该做的分析还是只是表面文章。第四是实用价值即这个输出交给真实员工使用他们能不能直接用得上。第五是表达质量即文字是否清晰、结构是否合理、术语是否准确。这位美食评论家本身也是一个AI具体使用的是Claude Sonnet 4.6模型但打分路径会根据输出文件的类型不同而分叉纯文字类输出走文字评分通道而HTML页面、幻灯片、PDF、表格、图片这类视觉化文件则先通过截图转换成图片再走视觉评分通道。研究团队还专门验证了这位AI裁判的可靠性。用另一个AIGPT-5.4重新打分与主裁判的相关系数达到0.918文字路径和0.866视觉路径说明两位AI裁判给出的排名高度一致。但当他们请来48位真人专家对比打分时结果出现了一个重要裂缝在文字类任务上AI裁判和人类评分者的相关系数高达0.790非常可靠但在视觉类任务上相关系数跌到了-0.259甚至是负数——这意味着AI裁判越打高分的视觉作品人类反而觉得越差。这个发现意味着当前AI对图表、幻灯片、网页等视觉输出的评判能力还相当不成熟。五、真实大考成绩单谁排第一谁惨遭滑铁卢在120道人工核查题Lite版上研究团队测试了五套工作装备harness与九种AI大脑模型的32种组合形成一张完整的成绩单。整体排名里最高分是66.3分由Codex装备搭配GPT-5.5大脑完成。紧随其后的是Claude Code装备搭配Sonnet 4.664.4分以及Claude Code装备搭配Opus 4.663.5分。平均分只有48.6分说明这个考场对所有AI来说都相当具有挑战性远没有饱和——没有哪个组合能轻松拿满分。成绩单上最耐人寻味的现象来自Hermes这套装备与Claude系列大脑的组合。Claude的Sonnet 4.6模型在其他三套装备Claude Code、DeepAgents、OpenClaw上稳定保持在62%到64%的区间但换上Hermes之后成绩骤降至45.8%。Opus 4.6和Haiku 4.5也呈现同样的规律。研究团队追查了详细的运行日志后发现Claude系列模型喜欢主动探测环境、运行脚本、多步骤修复——但Hermes这套装备会频繁触发审批检查把这些操作拦下来或者把被拦截的工作转包给子任务导致运行日志变得极长并在写出输出文件之前就被截断。结果就是任务看起来完成了但工作目录里根本没有稳定的输出文件。这个现象揭示了一个关键洞察有时候AI表现不好不是因为大脑不够强而是因为穿的工作服不合身。成本与成绩的关系同样有规律可循。把每种组合的花费以人民币计和得分放在坐标图上会看到一个边际收益递减的曲线从极低成本到中等成本的跨越能带来显著的成绩提升但超过中等成本区间后继续烧更多钱只能换来越来越小的进步。Hermes与Claude系列的组合是最明显的离群点——花了很多钱但因为装备兼容性问题分数远低于同等成本下其他组合的水平。六、不同部门的AI成绩差异为什么财务和市场是难啃的骨头把成绩按企业角色类别拆分来看GPT-5.5是最全面的通才选手在多个职能类别里都位居前列其中产品/项目类任务得分高达72%。Sonnet 4.6和Kimi K2.6紧随其后也表现相对均衡。但整体来看营销类和财务/运营类任务得分明显偏低。研究团队人工查阅了这些任务的细节后分析认为这类任务的难点在于两个叠加一方面需要大量阅读和理解长篇业务文件另一方面要求输出结果严格符合企业内部的特定格式和行业惯例。这类高度专业化、高度情境化的知识在公开训练数据里本来就比较稀少因此AI在这些类别上的表现相对吃力。不同格式的输出对成绩的影响同样不可忽视。把成绩按输出文件类型拆分后会看到GPT-5.5在HTML页面、代码和JSON类输出上最强而Opus 4.6在表格类输出上反而拔得头筹。此外表格和幻灯片类任务的视觉评分普遍偏高但这个虚高并不是真实质量的反映而是前面提到的AI视觉裁判不够准的副产品——这个系统性偏差在研究中被明确指出是当前多模态评估的重要盲区。把五个评分维度单独拆出来看各模型在表达质量和任务相关性上普遍得分较高但在扎实的准确性上显著偏低。研究团队认为这折射出了AI在处理大型输入文件时的一个普遍弱点它们往往很难在漫长的多步骤执行过程中始终记住用户要求的关键细节经常在最终输出里丢失或错误处理了原始文件里的核心数据。换句话说AI能写得很像样但不一定写得很准确。七、当AI给自己培训材料技能嫁接实验的喜与忧EnterpriseClawBench还设计了一个颇具前瞻性的实验用来测试一个新兴的企业AI使用模式——技能迁移。在企业实际部署AI时越来越多的做法是先让AI在某类任务上积累经验然后把这些经验提炼成一份技能文件可以理解为一份详细的操作手册再把这份手册注入AI让它在处理同类新任务时参考这套经验。研究团队选择了前端页面生成这个技能子类来做实验先让几种不同的创造者AI在10道练习题上完成任务收集它们的操作过程、交付成果和裁判反馈然后由另一个AI把这些材料提炼成一份技能手册最后把这份手册注入不同的执行AI在5道新题上测试有没有进步。结果呈现出一张四行三列的矩阵图横轴是技能手册的创造者GPT-5.5、Kimi K2.6、Haiku 4.5纵轴是技能手册的使用者四种harness-模型组合每个格子里记录了注入技能前后的分数变化。GPT-5.5创造的技能手册效果最好平均让使用者进步了0.068而且没有出现负面影响。Kimi K2.6创造的手册平均带来0.052的进步但进步主要集中在Codex/GPT-5.5和OpenClaw/Kimi K2.6这两个强消费者身上。Haiku 4.5创造的手册则是灾难性的平均分下降了-0.094对OpenClaw/Kimi K2.6这个组合造成了高达-0.323的重创。更有趣的是创造技能的能力和使用技能的能力并不挂钩。Haiku 4.5作为创造者表现很差但作为执行者DeepAgents/Haiku 4.5却相当不错三份注入的技能手册中有两份让它进步了。这说明技能迁移的效果是由手册质量、执行者行为风格、创造者与执行者的匹配度以及执行者的基础分共同决定的不能简单地用一个平均数来概括。研究团队由此建议评估技能迁移效果应该像这张矩阵一样完整呈现创造者-使用者组合而不是报告一个笼统的平均进步值。八、从852道真实考题研究团队得出了哪些结论说到底EnterpriseClawBench这个研究的贡献可以归结为三个层面。在工具层面它提供了一套可复用的出题流水线——从企业真实工作记录到可重复执行的基准任务每一步都有明确的自动化逻辑其他公司理论上可以用同样的方法为自己的场景建立内部测试集当然论文本身因涉及内部数据并不对外公开测试数据。在评估框架层面研究明确指出评估企业AI助手的性能必须同时汇报装备-大脑组合不能只报模型名字、文件交付情况、文字与视觉双通道的语义质量、运行成本和时间以及在不同职能类别和技能子类上的表现把这些维度压缩成单一分数是危险的简化。在现实意义层面最高分才66.3分这个事实清晰地说明当前的AI系统距离真正胜任复杂企业工作还有相当距离。装备与大脑的兼容性问题、对大型输入文件的事实准确性问题、视觉类输出的评估不成熟问题都是亟待解决的瓶颈。对于正在思考要不要在公司里大规模部署AI助手的企业决策者来说这份成绩单提供了一个难得的理性参照——不要被演示环境里的精彩表现迷惑真正的考场要严苛得多。对于普通的职场人来说这项研究意味着AI助手确实能帮你完成很多日常办公任务但它更像一位刚入职的实习生在表达上挑不出太多毛病但在关键数据的准确性上还需要你认真复核。而当这位实习生换了一套新的工作系统之后他的表现可能会出乎意料地变好或变差——这不是他变聪明或变笨了而是新系统和他的工作风格不合拍。如果你对这项研究的细节感到好奇可以前往arXiv平台通过编号arXiv:2606.23654查阅完整论文所有的实验数据、评分方法和案例分析都在其中等待你的探索。---QAQ1EnterpriseClawBench测试的是什么和普通AI评测有什么不同AEnterpriseClawBench是一套专门针对企业办公场景的AI评测基准它的题目全部来自一家真实公司员工与AI助手的真实工作记录而不是人工设计的假设场景。普通AI评测通常只测知识问答或代码生成EnterpriseClawBench则要求AI读取混合格式的真实文件、调用工具、并输出可用的业务文档同时还会评估完成任务的成本和时间更接近真实工作环境的考验。Q2为什么同一个AI模型换了不同的工作框架成绩差异会这么大A这是因为AI模型本身只是大脑还需要一套工作装备harness来帮它调用工具、管理文件。不同装备有不同的规则和限制比如Hermes装备会频繁拦截Claude模型喜欢使用的主动探测和脚本执行操作导致任务无法完成成绩大幅下滑。这说明评估AI性能时必须同时说明用的是哪套装备而不能只报模型名称。Q3EnterpriseClawBench里的技能注入实验说明了什么A实验测试了把AI的成功经验提炼成技能手册再注入新AI是否能提升表现。结果发现技能手册的质量高度依赖于创造者AI的水平GPT-5.5创造的手册普遍有效而Haiku 4.5创造的手册反而让某些组合成绩下降了超过30%。此外擅长创造技能和擅长使用技能是两种不同的能力一个AI在其中一方面强不代表另一方面也强因此不能用单一平均分来评价技能迁移效果。