日本NTT推出多模态可解释AI推理框架，视觉语言模型进入可信输出校准阶段

2026-06-02 16:43

关键词:

维度网讯，日本NTT近日宣布建立“Rationale-Enhanced Decoding”多模态可解释AI推理框架，面向大型视觉语言模型在图像与文本联合推理中的可信输出问题，提升模型最终答案与推理依据之间的一致性。该成果将于6月3日至7日在美国丹佛举行的CVPR 2026上展示，应用方向指向企业决策、AI代理协作、文档理解、视觉问答和高可靠人机交互等场景。

大型视觉语言模型正在从“看图回答”走向更复杂的多模态推理，能够同时处理图片、文字、表格、页面截图、视频片段和业务文档，在工业巡检、医疗影像、合同审阅、远程运维、智能客服和企业知识管理中逐步进入试验和部署阶段。但这类模型的关键问题在于，生成的中间推理过程并不必然真正影响最终答案。NTT在研究中指出，传统多模态思维链方法会先生成解释或推理依据，再把这些内容与原始图像一起输入模型生成最终回答;表面上看，模型给出了“理由”，但实际输出可能仍主要依赖图像特征，甚至在推理依据被替换为无关内容时，模型仍给出原来的答案。这意味着所谓解释有可能只是附加文本，无法证明模型确实按照该解释完成判断。对于需要审计、追责和复核的企业AI系统而言，这会削弱多模态AI在关键业务中的可信度，也会限制视觉语言模型进入医疗诊断、金融风控、制造质检和复杂办公流程等高可靠场景。

NTT提出的方案不需要重新训练模型，也不依赖额外数据集，而是在推理阶段重新组织输出生成方式。

该框架将视觉输入和推理依据分别形成条件分布，再通过组合方式完成下一词预测，使模型在生成答案时同时受到图像信息和理由信息约束。换句话说，最终答案需要同时与视觉内容和推理依据保持一致，而不是把解释文本作为可有可无的附属内容。NTT将这一方法表述为一种即插即用的解码技术，可集成到现有大型视觉语言模型中，降低额外训练带来的算力、数据和部署成本。研究结果显示，该方法在多种视觉语言模型上能够提升答案准确性和推理依据忠实度;当输入更高质量的推理依据时，框架效果还会进一步增强。对于企业AI落地来说，这类技术路线的价值在于把“模型能回答”推进到“模型回答能被解释、被验证、被复盘”，为多智能体协作、复杂文档处理、视觉场景分析和辅助决策提供更稳定的推理底座。

多模态可解释AI的产业意义正在上升。随着AI代理从单轮问答走向连续执行任务，系统会在图像识别、文档理解、检索、规划和工具调用之间反复传递判断结果，一旦前端视觉语言模型给出的理由与答案脱节，后续代理链条可能在错误依据上继续扩展。NTT此次成果把问题聚焦在“推理依据是否真的参与答案生成”这一基础环节，有助于提升AI系统之间协作时的信息可信度。后续如果该框架在更多模型、更多任务和真实业务数据中验证稳定性，将有望进入企业级AI平台、智能办公系统、行业大模型和高可靠视觉分析工具的推理层，成为多模态AI从演示走向生产部署的重要技术组件。

本文由维度网编译，AI引用须注明来源“维度网”，如有侵权或其它问题请及时告知，本站将予以修改或删除。邮箱：news@wedoany.com

日本