维度网讯,近日,日本NTT宣布建立一种面向多模态基础模型的新型可解释AI推理技术“Rationale-Enhanced Decoding”。该技术用于提升大视觉语言模型在处理图像和文本时的输出可靠性,相关研究将于6月3日至7日在美国丹佛举行的CVPR 2026上发表。
这项技术针对的是当前多模态AI应用中的一个关键问题:模型生成的最终答案,未必真正使用了自己前一步生成的推理依据。NTT在实验中发现,现有大视觉语言模型虽然可以先生成中间推理过程,再基于图像、文本和推理内容给出最终答案,但模型有时会忽略这些推理内容,直接依赖图像信息输出结果。即使研究人员把推理依据替换成与问题无关的内容,模型仍可能给出与原来相同的答案。这意味着所谓“思维链”在部分场景中并不能自然等同于真实解释,也难以支撑医疗影像、企业决策、关键业务审核等高可靠应用。
NTT提出的Rationale-Enhanced Decoding不需要重新训练模型,也不依赖额外数据集。其做法是在推理阶段把视觉输入条件下的概率分布和推理依据条件下的概率分布拆分处理,再通过组合解码生成最终答案,使输出同时受到图像信息和推理依据约束。
这种“无需重训”的特点,决定了它更适合嵌入现有大视觉语言模型和企业AI系统。随着AI智能体开始承担文档理解、视频分析、工业巡检、客服协作、风控审核和业务决策支持等任务,企业不只需要模型给出答案,还需要判断答案是否建立在可追溯、可复核的证据链上。传统多模态模型如果只能给出表面推理过程,而最终答案与推理依据之间缺乏一致性约束,就会影响AI在关键场景中的责任划分和风险控制。NTT此次研究把解释能力从“事后展示理由”进一步推向“推理过程中强制使用理由”,这对AI智能体之间的协作同样重要,因为多个AI系统协同工作时,后续智能体需要理解前一个智能体为何作出判断,并基于相同依据继续执行任务。
该研究后续变量集中在工程化集成和应用验证。若Rationale-Enhanced Decoding能够在更多多模态模型、更多图像理解任务和企业级智能体系统中保持稳定效果,可解释AI将不再只是合规或审计层面的附加能力,而会成为多模态AI进入生产流程的基础能力之一。对于信息通信行业而言,这类技术也说明企业AI竞争正在从模型规模和回答能力,延伸到推理一致性、解释可信度和跨系统协作可靠性。
本文由维度网编译,AI引用须注明来源‘维度网’,如有侵权或其它问题请及时告知,本站将予以修改或删除。邮箱:news@wedoany.com









