港科大提出Robust-U1:MLLM自我修复受损视觉内容
Robust-U1: Can MLLMs Self-Recover Corrupted Visual Content for Robust Understanding?作者Jiaqi Tang, Jianmin Chen, Youyang Zhai, Wei Wei, Runtao Liu, Mengjie Zhao, Xiangyu Wu, Qingfa Xiao, Qifeng Chen核心发表机构The Hong Kong University of Science and Technology、Northwestern Polytechnical University、Northeastern University、Nanjing University of Science and Technology、The Hong Kong University of Science and Technology (Guangzhou)论文链接arXiv:2606.08063v1发布于arXiv 预印本cs.CV| :— | :— | :— | :— | :— ||Ours|Robust-U1|0.7353 / 0.7329 / 0.6768|0.7067 / 0.7164 / 0.6934|0.8272 / 0.8059 / 0.7640|0.7398|| Robust MLLM | Robust-R1 | 0.6529 / 0.6391 / 0.6097 | 0.4914 / 0.4909 / 0.4980 | 0.4068 / 0.3781 / 0.3484 | 0.5017 || General MLLM | BAGEL | 0.7176 / 0.6584 / 0.5793 | 0.6497 / 0.6127 / 0.6150 | 0.4685 / 0.4633 / 0.4288 | 0.5770 |对抗性破坏下的鲁棒性。在MMMB、MMStar、RealWorldQA三个基准上Robust-U1在100%破坏强度下均达到最佳或次佳结果。例如在MMMB上Robust-U1在100%退化时得分为83.18远超BAGEL的78.48和Robust-R1的75.35。更重要的是从干净输入到100%退化Robust-U1仅下降1.57分而BAGEL下降3.44分Robust-R1下降6.06分充分证明了自我恢复机制在重度退化下的有效性。恢复质量的可视化对比。下图展示了模型在不同训练阶段所恢复图像的视觉质量逐步提升的过程。从带噪声的原始输入BAGEL直接输出开始经过SFT阶段和双重奖励RL阶段最终Robust-U1恢复出的图像在清晰度、结构和语义正确性上都接近真实干净图像。与外部恢复模块的对比。将Robust-U1与“外部恢复强判别式MLLM”管道进行对比其中外部基线包括全能恢复模型DFPIR、去模糊模型EVSSM、去噪模型MambaIRv2、去雾模型BiLaLoRA。Robust-U1在R-Bench上以0.7398的总分大幅领先最佳外部基线的0.5511。分析表明原因在于外部模块的优化目标是感知质量而非下游理解任务而Robust-U1通过双重奖励和多模态推理使恢复过程与下游任务对齐。用户研究。25名具备计算机视觉背景的参与者在15个随机样本上进行双向盲比。Robust-U1在语义忠实度上获得92.3%的偏好率BAGEL仅5.6%在整体视觉质量上获得85.7%的偏好率BAGEL仅10.1%自动指标的提升转化为了感知层面的显著增益。4.3 消融实验 / Ablation Study各阶段贡献消融。下表展示了逐步训练带来的收益。SFT阶段将PSNR从14.37提升至20.88但R-Bench增益很小0.0204表明“视觉更干净”并不足够。RL阶段的像素级奖励进一步提升了结构质量PSNR: 20.88→21.45语义级奖励提升了感知质量LPIPS: 0.3444→0.3233组合后的全模型在三项指标上达到最佳平衡。更关键的是RL阶段虽只带来PSNR微小提升≤0.6dB却带来巨大的R-Bench提升~0.13表明恢复只有在与下游任务语义对齐时才能真正支持推理。方法PSNR↑SSIM↑LPIPS↓R-BenchBAGEL14.370.47220.50920.5770SFT20.880.61350.34440.5974RL w.R pix \mathcal{R}_{\text{pix}}Rpix​21.450.63110.33230.7289RL w.R sem \mathcal{R}_{\text{sem}}Rsem​21.450.63120.32330.7236Ours21.490.63140.32230.7398各奖励机制的贡献消融。移除像素级奖励后总体分从0.7398降至0.7257在需要精准视觉理解的MCQ任务上下降最明显。移除语义级奖励后总体分降至0.7236在高退化强度下性能下降最为严重MCQ高从0.6768降至0.6220表明当退化严重时确保语义正确性至关重要。下图直观展示了各奖励的作用像素级奖励减少像素伪影语义级奖励确保内容正确。多模态推理的贡献。移除多模态推理即只使用恢复图像进行推理后总体分从0.7398降至0.6623验证了联合使用退化与恢复图像进行推理的重要性。与“检测-恢复”变体的推理成本对比。完整Robust-U1管道因50步去噪循环导致延迟55.0秒R-Bench得分0.7398而检测-恢复变体触发式恢复延迟24.6秒得分0.7082标准MLLM无恢复延迟1.8秒得分0.6204。这清晰展示了鲁棒性-成本权衡检测-恢复变体是更实用的选择。始终开启恢复对干净输入的影响。在干净输入下恢复带来微小但一致的提升0.00440.7821→0.7865而在退化输入下带来巨大提升0.17930.5605→0.7398。这表明始终开启恢复是安全的默认选择。五、相关工作 / Related Work隐式鲁棒适应Implicit Robust Adaptation。以TeCoA、Robust CLIP、Robust LLaVA为代表的方法通过在视觉编码器内对齐被破坏和干净图像的特征分布来提升鲁棒性。这些方法本质上是对输入空间进行平滑处理使模型对扰动不敏感。然而作为黑盒方法它们缺乏可解释性且无法显式地恢复视觉细节。Robust-U1与之形成对比它提供了显式的、可量化的恢复过程使模型能够直接观察恢复后的视觉内容。白盒文本推理White-box Text-based Reasoning。Robust-R1是最新代表它通过明确的文本链描述破坏类型和语义影响来增强推理的可解释性。然而文本描述是对视觉信息的严重压缩无法恢复丢失的像素级细节。例如面对一张严重失真的交通标志图像文本推理可能错误地推断形状而误判方向而Robust-U1通过像素级恢复能够准确保留原始的箭头方向。实验数据也证明了这一点Robust-R1在R-Bench总体仅为0.5017远低于Robust-U1的0.7398。“用图像思考”范式Think with Images。如DeepEyes、Thinking with Generated Images等工作通过生成中间视觉表征来增强推理。Robust-U1继承并扩展了这一范式将生成能力特化为针对被破坏图像的自我恢复。不同于生成“想象中”的视觉内容来帮助推理自我恢复是生成“视觉真相”以修复被破坏的输入因此更适合鲁棒理解任务。六、局限性与展望 / Limitations Future Work局限性。第一恢复质量存在理论上界。恢复图像的质量受底层统一MLLM生成能力的限制双重奖励RL虽有改善但在高度复杂或严重破坏大量关键信息丢失的情况下仍可能失败。当前工作聚焦常见真实世界破坏对罕见或对抗性特定扭曲的性能尚未充分探索。第二对配对训练数据的依赖。SFT和RL阶段均需要被破坏图像干净图像配对数据。虽然可通过ImageNet-C等合成生成但合成破坏与真实破坏之间的域差异可能限制泛化。对于专业领域工业缺陷检测、遥感、医学成像获取大规模真实破坏配对数据尤为困难。无参考奖励方案的初步实验使用图文一致性奖励表明该方法性能低于配对标定监督说明配对标定监督仍是最有效的。第三推理延迟较高。完整管道因50步去噪循环导致延迟高达55秒虽然检测-恢复变体可缓解此问题但这仍是在延迟敏感场景中部署的障碍。未来工作。首先探索高效的自恢复架构如轻量化恢复模块、知识蒸馏、条件生成机制以减少去噪步骤应对推理-成本权衡。其次发展与损坏特定先验的集成方法将数据驱动恢复与基于物理或统计的损坏模型结合如去模糊结合估计模糊核、去噪结合噪声模型尤其适用于医学成像、遥感等专业应用。第三将框架扩展至视频与时序域处理时间一致性和运动动态实现雨、雾、低光等恶劣条件下的鲁棒视频理解。最后创建更全面的基准覆盖多种破坏类型、严重程度和多模态任务强调真实自然发生的破坏而非仅合成破坏。七、总结 / Conclusion本文提出了Robust-U1一个赋予多模态大语言模型显式视觉自我恢复能力的鲁棒理解框架。通过精心设计的三阶段训练流程——监督微调建立基础恢复能力、强化学习以双重奖励对齐像素级和语义级质量、多模态推理联合利用被破坏与恢复图像——Robust-U1从根本上超越了现有隐式特征对齐和文本推理方法的局限。在真实世界破坏基准R-Bench上该方法以0.7398的总分大幅领先现有最强鲁棒方法Robust-R10.5017和基础模型BAGEL0.5770。在对抗性破坏下的通用VQA基准上Robust-U1同样保持了最佳的鲁棒性。系统性的消融实验证实高质量的视觉恢复直接提升推理性能且恢复之所以有效是因为与下游任务对齐而非仅仅提升像素级质量。这些结果确立了视觉自我恢复作为实现鲁棒视觉理解的一个关键机制为多模态大语言模型在开放、不可控环境中的可靠部署提供了新的范式。原文摘要:Multimodal Large Language Models (MLLMs) have demonstrated remarkable success in visual understanding, yet their performance degrades significantly under real-world visual corruptions. While existing robustness enhancement approaches exist, they are limited: black-box feature alignment lacks interpretability, and white-box text-based reasoning cannot restore lost pixel-level details. This work investigates a fundamental research question: Can MLLMs recover corrupted visual content by themselves? To address this, we propose Robust-U1, a novel framework that equips MLLMs with explicit visual self-recovery capability for robust understanding. The approach comprises three core stages: supervised fine-tuning for initial reconstruction, reinforcement learning with dual rewards (pixel-level SSIM and semantic-level CLIP similarity) for aligning high visual quality, and multimodal reasoning that jointly considers both the corrupted input and the recovered image. Extensive experiments demonstrate that Robust-U1 achieves state-of-the-art robustness on the real-world corruption benchmark and maintains superior performance under adversarial corruptions on general VQA benchmarks. Analysis confirms that high-quality visual recovery directly enhances reasoning performance, establishing self-recovery as a critical mechanism for robust visual understanding. The source code is available at https://github.com/jqtangust/Robust-U1.PDF链接:https://arxiv.org/pdf/2606.08063v1部分平台可能图片显示异常请以我的博客内容为准

相关新闻