多模态 AI 走到哪了?从 GPT-4V 到 Gemini 的进化
引言多模态 AI 的爆发之年2023 年秋天OpenAI 发布了 GPT-4V第一次让 ChatGPT 能够看见世界。用户上传一张冰箱照片AI 就能推荐晚餐食谱拍一张白板上的手绘图AI 就能转换成可运行的代码。这不仅仅是功能上的小更新——它标志着 AI 从文字对话迈入了多模态理解的新纪元。两年多过去了多模态 AI 领域发生了翻天覆地的变化。从 GPT-4V 到 Gemini 2.5从 Claude 3.5 Vision 到开源界的 LLaVA 和 Qwen-VL多模态模型的能力边界被一次次推远。今天我们来聊聊这场进化到底走到了哪里。GPT-4V开创者GPT-4V 的发布是里程碑式的。它首次将视觉理解能力无缝集成到了大语言模型中。用户可以通过自然语言与图像交互——让 AI 描述图片内容、从图表中提取数据、识别手写文字、甚至理解漫画的分镜逻辑。它的核心突破在于不再需要单独的视觉模型和文本模型的拼接而是让同一个 Transformer 架构同时处理图像和文本 token。这种端到端的设计思路成为后来所有多模态模型的基准。当然初代 GPT-4V 也有局限。它的空间推理能力偏弱——图片中那只猫在桌子的左边还是右边这类问题常出错。对高分辨率图像的理解也有限制容易丢失细节。但这些不足并不妨碍它成为多模态 AI 的分水岭。GeminiGoogle 的全面反攻Google 在多模态上的布局其实更早。Gemini 发布时其最引人注目的卖点就是原生多模态——模型从训练之初就同时处理文本、图像、音频、视频和代码而不是在文本模型上后期追加视觉能力。这种原生多模态思路带来的直接好处是跨模态的理解更自然。Gemini 可以理解一段视频中的对话、画面和字幕之间的关联这在 GPT-4V 上需要通过多步处理才能做到。2025 年发布的 Gemini 2.5 Pro 更进一步上下文窗口达到 100 万 token能一次性处理整部《三体》三部曲加上相关评论。不过 Gemini 的使用体验一直有一个中国特色的痛点——在国内直接使用仍然比较麻烦需要通过 API 或第三方中转。相比之下国内用户更容易接触到的是 GPT 系列和本土多模态模型。Claude 3.5 Vision工程师的最爱Anthropic 的 Claude 3.5 Sonnet 在视觉能力方面有其独特的优势。它在 UI 理解和代码截图还原方面的表现尤为出色——开发者和设计师用它来将设计稿转为前端代码、分析复杂的系统架构图、甚至调试 UI 布局问题。Claude 的视觉能力之所以在开发者社区广受欢迎除了准确性高之外还有两个关键因素一是它对图片中的文字识别准确率极高适合处理截图和扫描文档二是它的回答质量稳定、风格一致不会因为图片输入的加入而分心。2025 年 Claude 进一步扩展了 Artifacts 的能力允许在对话中生成和预览交互式原型配合视觉理解形成了完整的看原型→改代码→预览效果闭环。开源方案的崛起不再只是巨头的游戏如果说 2023-2024 年的多模态 AI 还是 GPT-4V 和 Gemini 双雄争霸那么 2025 年以后开源社区的力量彻底改变了格局。LLaVA开源多模态的标杆LLaVALarge Language and Vision Assistant是威斯康星大学麦迪逊分校和微软研究院的开源项目开创了视觉编码器 语言模型 投影层的经典架构。LLaVA-1.62024通过引入动态高分辨率技术和更优质的训练数据在多个视觉问答基准上接近甚至超越了 GPT-4V。2025 年的 LLaVA-NeXT 系列进一步提升了视频理解能力。Qwen-VL来自中国的实力选手阿里巴巴的 Qwen2.5-VL 系列在开源社区中异军突起。它支持动态分辨率——不将图片强制缩放到固定尺寸而是根据内容自适应处理这对包含大量文字的文档类图片尤其友好。Qwen2.5-VL 在 MathVista、ChartQA 等需要精细视觉推理的基准上表现优异而且模型权重完全开源可以在消费级 GPU 上部署。InternVL清华团队的深度探索上海 AI Lab 和商汤科技联合推出的 InternVL 系列在规模上不断突破。InternVL2.5 将视觉理解和多模态对话能力提升到了新高度尤其在大规模视觉语言模型的高效训练方法上做出了原创性贡献。多模态能力的三大进化方向回顾这两年多的进化多模态 AI 的能力提升主要体现在三个维度1. 输入模态的扩展从最初的图片文字到今天多模态模型的输入能力已经覆盖了图片、视频、音频、文档PDF/PPT、3D 点云甚至传感器数据。Gemini 2.5 可以处理长达数小时的视频Claude 支持 PDF 文档的深度理解国内的 Qwen2.5-VL 也能处理包含大量文字的扫描件。输入模态越丰富AI 的应用场景就越广泛。2. 细粒度理解的提升早期的多模态模型对图像的理解停留在分类描述的层面——这是一只猫在沙发上。现在的模型可以做到识别图片中某一行具体文字、理解数据图表中的趋势变化、对比两张图片的细微差异、甚至从一张模糊的监控截图中找到特定细节。这种从粗粒度到细粒度的跃迁是视觉 AI 走向实用的关键。3. 推理能力的融合最重要的变化或许不是看得更清楚而是想得更深入。GPT-4V 时代多模态模型更多的是在做描述和识别。而到了 2025-2026 年多模态模型开始展现出真正的视觉推理能力——不仅仅是看到图片中的内容还能基于看到的内容进行多步推理。例如看到一张电路图模型可以一步步分析故障可能出在哪里看到一份财务图表模型可以结合上下文数据判断趋势背后的原因。这种视觉感知 链式推理的结合让多模态 AI 从看图说话进化到了看图解题。应用场景的全面铺开多模态 AI 的能力提升正迅速转化为实际应用医疗影像分析——辅助放射科医生识别病灶生成诊断报告草案工业质检——通过视觉 文本描述自动识别生产线上的缺陷产品教育领域——拍照解题、批改手写作业、将教科书内容转化为交互式学习体验无障碍技术——为视障人士实时描述周围环境读图、读菜单、读路牌创意设计——从草图生成高保真设计稿从文字描述生成视频内容自动驾驶——融合摄像头、雷达、文本地图等多模态输入做出驾驶决策这其中每一个方向背后都是一个百亿级甚至千亿级的市场。多模态 AI 的商业化价值正在被快速释放。挑战与瓶颈尽管进步巨大多模态 AI 距离真正的全能感知还有不小的距离。幻觉问题在多模态场景下更难处理。文字模型的幻觉已经让人头疼了当模型既能说又能看时它可能一本正经地描述一张并不存在的图片细节。视觉幻觉的检测比文本幻觉更难——用户需要亲自确认图片内容才能判断 AI 是否在胡说。计算成本依然高企。处理一张高分辨率图片涉及的 token 数量可能达到数千甚至上万推理成本比纯文本对话高出一个数量级。虽然各家都在优化如动态分辨率、token 压缩但要实现大规模部署的成本可控仍需努力。视频理解还处于早期。尽管 Gemini 2.5 可以处理长视频但大多数多模态模型对视频的理解更像是按帧采样 文本总结缺乏真正的时序感知。一个视频中前后几秒的因果关系、镜头的叙事逻辑等模型还很难把握。安全与对齐的挑战。多模态模型可能面临新的攻击面——对抗性图片、隐写的恶意指令、视觉 prompt injection 等。如何确保模型在看见世界的同时不被误导是一个开放的研究问题。未来展望通往通用视觉智能展望未来多模态 AI 的发展有几个明确的趋势第一世界模型的概念正在从理论走向实践。特斯拉的 FSD 和 Google 的 Genie 都在尝试构建能理解物理世界运行规律的模型——不仅仅是识别物体而是理解物体之间的物理交互。第二视频原生模型将取代图片帧采样的方案。Sora 的开创性工作只是一个开始未来的多模态模型将在视频数据上直接训练具备真正的时序理解能力。第三多模态 Agent 化。让多模态 AI 不仅能看和说还能做——通过视觉感知环境、规划行动、执行任务。从 Claude 的 Computer Use 功能到各种视觉驱动的机器人控制方案多模态 Agent 正在成为下一个突破口。第四端侧部署。Apple Intelligence 和各家手机厂商的端侧多模态模型正在让 AI 理解能力走出云端进入每一部手机。离线拍照翻译、实时 OCR、相册语义搜索等功能已经在高端手机上落地未来将向中低端设备普及。结语从 GPT-4V 的惊艳亮相到 Gemini 的原生多模态从开源社区的百花齐放到千行百业的落地应用多模态 AI 在短短两年多的时间里完成了从技术 demo到生产力工具的蜕变。如果说纯文本的 LLM 让 AI 学会了阅读那么多模态 AI 正在让 AI 学会观察。当一个 AI 模型既能读懂《三体》又能看懂电路图、既能分析财报图表又能理解手术影像它离真正的通用智能也就不远了。这场进化还在加速——下一次突破或许就在明天。

相关新闻