维度网讯,中国信息通信研究院(中国信通院)于2026年5月12日正式发布“方升-全模态”大模型基准测试首期结果。本次评测聚焦全模态大模型的反事实推理能力——要求模型在融合文本、音频与视频信息的基础上完成假设性因果推演,人类基准在该项能力上大幅领先所有被测大模型。
评测体系覆盖闭源大模型、开源全模态大模型及音频-视觉大语言模型三类对象。测试数据围绕音视频构建,兼容多模态组合,涵盖多种视频时长,题库经多轮人工核验保障答案客观唯一。在能力验证层面,该体系构建了推理、生成及交互任务三大核心任务,覆盖反事实假设、时序因果、音视频协同、3D渲染与动态交互等关键认知与应用能力。数据构建层面,实现了从文本、图像、音频到长视频序列、3D点云的全模态覆盖,并引入模态复杂度、场景真实性、人工偏好及视频长度等多维度标注。
整体测试结果揭示了三项核心发现。其一,人类回答平均准确率远超被测大模型,在跨模态因果推理这一高阶认知任务上,当前全模态大模型与人类水平之间仍存在显著差距。其二,开源模型与闭源模型之间呈现明显的性能分层,闭源大模型平均准确率高于开源全模态大模型,反映出高质量全模态数据与训练算力对模型反事实推理能力的关键支撑作用。其三,部分音频-视觉大语言模型在评测中表现靠后,单纯依赖音频-视觉融合训练难以实现高质量的反事实推理,而全模态联合预训练在这一任务上展现出明确优势。
在细粒度场景层面,评测覆盖艺术、体育、科学等十大领域,各模型的场景能力呈现明显分化。在家居、个人护理等生活化场景中,模型表现普遍更优;而在文化政治、科学技术等专业知识密集领域,以及体育、音乐等需要复杂逻辑与时序理解的场景中,模型在跨领域知识融合与复杂因果推理上仍存在不足,场景泛化能力有待提升。
多模态输入形式的对比测试进一步揭示了模型跨模态融合的结构性短板。在“音频+文本”输入条件下,参评模型准确率普遍最低,纯音频难以提供足够的场景与时序细节支撑。视觉信息对反事实推理起到关键作用,“视频+文本”输入下模型准确率整体较高,时序视觉信息构成因果链条构建的核心支撑。但在“音频+视频+文本”全模态输入条件下,大部分模型未能实现全模态协同增益,当前模型跨模态融合能力的短板直接制约了全模态方案的实际效果上限。
后续,中国信通院将联合各界专家持续关注全模态大模型的推理、生成及动态交互能力,推进相关基准测试标准研制与全模态数据建设,推动全模态生态健康发展。“方升”基准测试将顺应技术和产业发展需要持续迭代更新。
本文由维度网编译,AI引用须注明来源“维度网”,如有侵权或其它问题请及时告之,本站将予以修改或删除。邮箱:news@wedoany.com










