文章源于作者在电池缺陷检测项目中发现的现象:多模态大模型(VLM)在网页端上传多图时表现优异,但使用 API 调用处理多图时准确率大幅下降,甚至出现逻辑矛盾。经过测试,作者发现随着图片数量增加(超过 3-5 张),模型性能显著滑坡,甚至出现截断。这并非模型能力不足,而是“视觉 Token”挤占了上下文窗口,导致注意力分配不均,类似于长文本检索中的“Lost in the Middle”现象。为解决此问题,文章提出了一套“两阶段”工程解法:第一阶段利用专门设计的“视觉提取器”提示词,对每张图片进行并发独立的特征提取,输出包含场景、关键物体及不确定性的结构化 JSON;第二阶段将所有图片的文本摘要与用户原始提示词整合,交由主模型进行最终推理。测试结果显示,该方法将原本不可靠的多图任务转化为可控的文本理解任务,有效解决了模型“看漏”或“幻觉”的问题,且能处理任意数量的图片。虽然该方法会显著增加 API 调用成本和响应延迟,但为多模态应用落地提供了一种可行且稳定性更高的架构思路。
事件分析
💡 核心观点:解决多模态大模型多图“幻觉”的关键,在于将图像理解从“端到端生成”转变为“结构化提取+逻辑推理”的 Agent 编排模式。
原文链接:Linux.do







AI周刊:大模型、智能体与产业动态追踪
程序员数学扫盲课
冲浪推荐:AI工具与技术精选导航