Vision-R1_ Incentivizing Reasoning Capability in Multimodal Large Language Models
标题: Vision-R1: Incentivizing Reasoning Capability in Multimodal Large Language Models作者: Wenxuan Huang, Bohan Jia, Zijie Zhai, Shaosheng Cao, Zheyu Ye, Fei Zhao, Zhe Xu, Yao Hu, Shaohui Lin 等年份: 2026发表刊物: ICLR研究主要背景DeepSeek-R1-Zero 模型的诞生。通过强化学习 (RL)无需人类手把手地教它一步步思考大语言模型 (LLM) 的推理能力就可以“自我涌现”。它会自己学会质疑、反思产生复杂的思维链来解决难题。因此产生一个思考能将这种强大的“RL-激发推理”模式从纯文本的 LLM移植到带有视觉能力的多模态大语言模型 (MLLM) 上吗目前增强 MLLM 推理能力的主流方法是研究人员手工构建包含标准解题步骤的数据集再通过监督微调 (SFT) 的方式教会模型如何答题。例如给模型一千道几何题每道题都附带“已知…求证…步骤一…步骤二…”的标准答案。这种方法虽然有效但产生的往往是僵硬的、缺乏灵魂的“伪思维链” (Pseudo-CoT)。缺少了人类反思反驳的动态认知过程难以应对需要深度洞察的复杂推理。因此面临的挑战如何在缺少高质量、多模态、且蕴含复杂认知过程的训练数据的情况下利用强化学习激发出 MLLM 真正的、类人的强大推理能力作者的问题意识直接复刻可行吗直接将 DeepSeek-R1-Zero 的强化学习方案套用在 MLLM 上是否也能激发出强大的多模态推理能力答案初步显示不行遇到了巨大挑战。数据从哪来既然“伪思维链”数据有缺陷而人类手工标注高质量、包含“思考”过程的数据成本又极其高昂那么是否有一种方法能够无需人工标注自动构建出一个既包含视觉信息、又包含高质量、类人复杂思维过程的数据集如何解决“过思考”困境即使有了好的启动数据作者发现模型会陷入一个怪圈它倾向于进行漫长的、但往往是错误的思考。如何引导模型先学会“正确的思考”然后再去“更深入地思考”从而稳定提升其推理能力强化学习研究意义Vision-R1 是最早将 DeepSeek-R1 式的强化学习范式成功、系统地应用于增强 MLLM 推理能力的探索之一。提出了“模态桥接”这一创新方法巧妙地利用现有最强文本推理模型DeepSeek-R1和视觉模型Qwen2.5-VL的能力全自动地构建了高质量的复杂 CoT 数据集。这为未来无需昂贵人工标注就能训练出更强大 AI 模型提供了宝贵的思路。发现了冷启动后模型特有的“过思考优化问题”并针对性地设计了PTST训练策略。为模型设计了一套科学的“思维训练课程”先打牢基础再逐步增加思考深度为复杂 RL 训练提供了稳定且高效的方案。仅使用 7B70亿参数的 Vision-R1 模型在多项数学推理基准测试中性能超越了众多 70B700亿甚至更大的顶尖模型正文-背景既然纯强化学习 (RL) 能让纯文本大模型 (LLM) 涌现推理能力那我们直接用同样的方法训练一个“看图说话”的多模态大模型 (MLLM)不就能得到一个会看图推理的超级模型了吗他们准备了一个包含 1 万道数学题有图有文字的数据集然后让一个基础 MLLMQwen2.5-VL-7B通过 GRPO 算法在这数据集上进行自我进化。规则很简单模型看到题目后自由生成“思考过程”(font stylecolor:#000000;think/font) 和“最终答案”(font stylecolor:#000000;answer/font)如果格式正确且答案对了就得 1 分否则得 0 分。结果如图 1 (D,E) 和 (F) 所示**Vision-R1-Zero **无法自发产生期望中的长且复杂的思维链。只能给出一些简短的分析推理能力提升非常有限。即使训练更长时间模型虽然能产出更长的文本但这并没有带来性能的提升就像是一直在做“无效的思考”。作者分析原因是“数据和模态的鸿沟”。DeepSeek-R1-Zero 的成功离不开海量、高质量的纯文本数据和长时间的训练。而在多模态领域高质量的多模态数据本就稀缺RL 训练时仅靠 1 万道数学题。模型缺乏一个基本的、蕴含“思考模式”的先验知识以至于 RL 的探索过程异常艰难。正文-方法第一步冷启动初始化这一步的目标是先教会模型“什么是好的思考”让它拥有一个优秀的思考范本而非从零开始盲目探索。挑战:如何得到这位“思考导师”的教学材料直接让人类去写上万道题、包含“质疑”和“反思”的思考过程代价巨大。而 DeepSeek-R1 虽然推理能力很强但是看不懂图。方法“模态桥接” 整个过程可以分解为以下步骤如图 2 所示1.生成“看图说话” (生成伪思维链): 研究者把图像问题答案这三样东西喂给一个现有的、能看图的基础 MLLM如 Qwen2.5-VL-72B让它生成一段“解题过程”。这个过程虽然被称为“伪思维链”缺乏深度反思但它天然地包含了“图像描述”比如“图中有两个全等三角形线段AF长10…”和“分步推理”“因为全等所以ABDF…”两部分。2. “桥接”视觉信息 (模态桥接): 他们把原始的图像问题和上一步生成的伪思维链再次输入给那个基础 MLLM。这次他们给它一个新的指令“根据这张图、这个问题和这个思考过程请你提供一个包含了所有解答此题必要视觉细节的详细描述。”为什么要这样做 因为“伪思维链”像一份笔记指出了“要解这道题你得关注图中的哪些点、哪些线、哪些标记”。这样一来基础 MLLM 就能像被老师点了下重点的学生产出一份信息极其丰富、针对性极强的纯文本图像描述。效果这个过程就像把图像信息“翻译”成了一种高度凝练、富含逻辑要点的文本信息成功地将“视觉模态”无损地“桥接”到了“文本模态”3. DeepSeek-R1 生成复杂 CoT: 现在我们得到了一份高质量的“纯文本看图写话”。这份材料对于推理模型DeepSeek-R1 来说是完美的输入研究者将这份详细文本描述和问题一起交给 DeepSeek-R1。DeepSeek-R1 生成包含“质疑”、“反思”、“验证”等行为的高质量、类人复杂思维链 (CoT)。4. 数据筛选与清洗: 最后通过基于规则的过滤剔除那些最终答案错误、逻辑混乱的样本并进行一些文字润色。最终他们将 DeepSeek-R1 生成的纯文本 CoT 与对应的原始图像配对构成了约 20 万个数据点的 Vision-R1-cold 数据集。5. 冷启动训练: 用这个数据集通过监督微调 (SFT) 的方式对基础 MLLMQwen2.5-VL-7B进行训练。此时的模型被命名为Vision-R1-CI。它已经学会了用类人的、复杂的方式进行思考。然而这样就会产生新的挑战Vision-R1-CI 虽然学会了复杂思考但容易形成了错误的习惯。如图 1 (A) 所示研究人员发现Vision-R1-CI 在面对问题时往往会进行非常冗长的思考但那些真正通向正确答案的推理路径反而集中在那些较短的思考过程中。这种“过思考”如果不加以纠正紧接着的强化学习训练将变得非常困难因为模型会在错误的道路上越走越远。第二步渐进式思维抑制训练 (PTST)这一步的目标是纠正模型的“过思考”引导它在强化学习RL中先掌握正确的推理再逐步增加推理深度最终变得又准又强。方法PTST GRPO with HFRRF作者提出了一个训练策略——渐进式思维抑制训练 (PTST)并结合群体相对策略优化 (GRPO) 和硬格式化结果奖励函数 (HFRRF)来实施。•GRPO(群体相对策略优化): 这是 RL 训练的具体算法。对于同一个问题它会让模型老版本尝试生成好几个比如16个不同的答案然后计算这批答案的平均分。比平均分高的就是好学生低的就被认为是差生。模型优化的目标就是提高成为好学生的概率降低成为差生的概率。这比单纯地和0分比要精细得多。•HFRRF (硬格式化结果奖励函数): 这是一个给模型打分的规则。它只看两点1. 格式对不对(……)2. 最终答案对不对。必须是格式和答案同时正确才给 1 分否则就是 0 分。这杜绝了“蒙对”或“格式对但答案错”的可能性强迫模型必须走最正确的路。•PTST (渐进式思维抑制训练):这是训练计划的“核心思想”。如图 3 所示它将 RL 训练分成多个阶段。在每个阶段人为地限制模型的“思考长度”即生成的 token 数量。第一阶段 (Stage 1): “基础动作训练”。设置极短的“思考长度限制”比如 4K tokens。在这严格限制下模型为了在有限的篇幅内得出正确答案并获得奖励必须学会精炼、压缩和优化其推理过程。那些绕圈子、不重要的步骤会被强制抛弃保留下来的是最精华、最直接的推理逻辑。这就有效解决了“过思考”问题让模型先学会“正确地思考”。第二阶段 (Stage 2): “进阶耐力训练”。当模型在短思考下已经能稳定得出正确答案后算法将“思考长度限制”放宽比如到 8K tokens。这时模型已经内化了正确的推理模式它开始利用“多出来”的思考空间去处理那些真正需要更多分析步骤的难题进行更深层次、更复杂的推理。第三阶段 (Stage 3): “自由发挥未采用”。理论上还可以进一步放宽到 16K tokens但作者发现在第二阶段结束时模型性能已经达到极佳水平进一步的训练收益甚微因此他们最终选择了第二阶段结束时的模型作为最终版 Vision-R1。通过 PTSTVision-R1 的优化路径变得稳定而高效。它不像 Vision-R1-Zero 那样无从下手也不像 Vision-R1-CI 那样陷入无效思考。它先学会“走稳”再学会“跑快”最终实现了推理能力的飞跃。结果数据设置训练数据冷启动数据Vision-R1-cold: 使用约10万LLaVA-CoT数据和约26万Mulberry数据通过模态桥接技术最终构建了约20万条高质量多模态思维链数据。强化学习数据: 收集了约1万个多模态数学问题来自We-Math、MathVision、Polymath等多个权威数据集用于GRPO训练。对于更大的32B和72B模型则额外增加了约2万条数据。测试基准: 在多个著名且极具挑战性的多模态数学推理基准上进行测试包括MathVista、MathVerse和MM-Math。核心结果现有方法对比Vision-R1-7B在最重要的MathVista基准上准确率达到了惊人的73.5%仅次于当时最强的推理模型OpenAI O1的73.9%。与Qwen2.5-VL-7B相比Vision-R1-7B在多个基准上平均提升近6%在MathVista的几何推理(GEO)、代数推理(ALG)等子任务上提升甚至超过了10%。这充分说明了强大的推理能力带来的加成是巨大的。当把模型扩展到320亿Vision-R1-32B和720亿Vision-R1-72B参数时在MathVista上分别达到76.4%和78.2%展现了极好的可扩展性。策略有效性的验证数据集质量验证表 2 和图 4: Vision-R1-cold 数据集包含的Wait等等、Hmm嗯、Mistake错误、Alternatively或者等体现自我反思行为的词语数量是其他数据集的几十倍到上千倍定性定量地证明了其推理过程的复杂性和人性化。使用该数据集进行冷启动的模型各项通用能力和数学能力也全面超越了使用其他数据集训练的模。PTST策略验证表5: 如果不用PTST一开始就给16K的长度限制Vision-R1-Long模型会严重跑偏性能从55.4% 暴跌至47.7%甚至比不做任何强化学习还要差。这证明了过度思考问题是真实存在的且PTST是解决它的关键。冷启动与PTST协同验证原文表3和表6: 单独使用冷启动Vision-R1-CI或单独使用PTSTZeroPTST效果都远不如两者结合。冷启动提供了学会复杂推理的基础而PTST修正了这一过程中带来的副作用两者相辅相成。可视化证据图4: 论文直接展示了Vision-R1的推理过程文本其中清晰地出现了Wait maybe I made a mistake…、“Let me double-check…”、Hmm interesting…等表达直观地展现了顿悟时刻的涌现。结论Vision-R1成功证明了通过先冷启动启蒙后强化学习精炼的创新范式可以有效激励多模态大语言模型涌现出强大的、类人的复杂推理能力。未来研究方向文献中提及的未来研究方向:多模态数据的Scaling Law: 作者在训练Vision-R1-32B和72B时使用了更多的强化学习数据效果显著。未来的研究可以进一步系统性地探索多模态推理数据规模与模型性能之间的关系找到最优数据配方。更复杂的多模态推理任务: 本研究主要聚焦于数学推理。未来可以将Vision-R1的范式扩展到更多、更复杂的多模态推理场景例如科学图表分析、医学影像诊断、复杂的图文逻辑谜题等。更长的思维链探索: 作者提到第三阶段的PTST训练放开到16K思考长度虽然没有带来显著性能提升但生成了更复杂的推理过程。这是否意味着对于某些更深奥的问题更长的思维链是必要的如何在更长的思维链中避免过度思考陷阱值得进一步研究。下一步的思考过程奖励模型的应用与比较: Vision-R1使用的是结果奖励即只看最终答案。如果有办法对推理过程中的每一步都进行自动评估并给予奖励过程奖励模型是否能更精细、更高效地引导模型学会正确的推理这可以与PTST策略结合实现过程-结果双保险。跨模态对齐的深化: 模态桥接虽然有效但仍是一种间接方法。能否设计出更好的模型架构让纯文本推理模型的强大内核与视觉编码器原生地、深度地融合让视觉信息和文本推理之间的翻译损耗降到最低实现真正的端到端多模态推理涌现结合推理时的扩展Test-time Scaling: 本研究主要关注训练阶段的改进。未来可以结合OpenAI O1和DeepSeek-R1也用到的推理时扩展技术即在模型回答问题的那一刻动态地分配更多计算资源让它进行更长或更广如树形搜索的推理将训练时的内功和推理时的爆发力结合起来。

相关新闻