谢菲尔德大学与艾伦图灵研究所的研究人员携手,共同制定了一项构建人工智能的新框架,该框架聚焦于如何让人工智能从视觉和语言以外的多样化数据中汲取知识,从而提升其在现实场景中的部署能力。此框架作为创建和部署人工智能的实用指南,旨在让技术更有效地解决现实问题,同时确保其符合道德标准。

该框架作为构建多模态人工智能的路线图,已发表于《自然机器智能》杂志。多模态人工智能系统具备从文本、图像、声音及传感器读数等多元数据中学习的能力。当前,多数人工智能仍局限于单一信息类型,如文本或图像,但多模态系统通过整合不同数据源,构建出更全面的世界认知图景。不过,研究指出,多数多模态人工智能仍主要依赖视觉和语言数据,这在一定程度上限制了其应对复杂挑战的能力。
新框架的提出,为行业开发人员和学术研究者提供了有力支持。研究显示,2024年在arXiv上发布的人工智能论文中,88.9%的论文涉及了两种不同类型的数据,且多与视觉或语言相关。谢菲尔德大学计算机科学学院的卢海平教授强调:“人工智能在视觉和语言领域取得了显著进展,但现实世界远比这复杂。为应对流行病、可持续能源和气候变化等挑战,我们需要能整合更广泛数据和专业知识的多模态人工智能。”他进一步指出,这项研究为实验室外的人工智能应用提供了部署蓝图,着重于安全性、可靠性和现实实用性。
研究还通过大流行应对、自动驾驶汽车设计和气候变化适应等三个现实用例,展示了新框架的应用潜力。艾伦·图灵研究所研究主管路易莎·范泽兰博士称:“通过多模态人工智能技术整合和建模海量多样化数据集,我们正为环境预测树立新标杆。”
更多信息: Xianyuan Liu 等,《超越视觉和语言,面向部署中心的多模态人工智能》,《自然机器智能》(2025)。期刊信息: 《自然机器智能》 , arXiv














京公网安备 11010802043282号