Microsoft 新 AI 模型 Magma 实现软件与机器人控制
2025-02-25 10:57
收藏

Microsoft Research 周三发布了一款名为 Magma 的全新 AI 基础模型,结合视觉与语言处理能力,可控制软件界面和机器人系统。该模型旨在推动多模态 AI 发展,使其在数字与现实世界中执行多步骤任务。若其效果超出内部测试预期,这将成为通用 AI 技术的重要进展。Microsoft 强调,Magma 是首款不仅能处理文本、图像和视频等多模态数据,还能直接操作用户界面或物理对象的模型。此项目由 Microsoft 携手 KAIST、马里兰大学、威斯康星大学麦迪逊分校及华盛顿大学的研究人员共同开发。

不同于 Google 的 PALM-E、RT-2 或 Microsoft 此前基于 ChatGPT 的机器人项目——这些依赖单独模型处理感知与控制,Magma 将两者集成于单一架构。Microsoft 将其定位为“代理 AI” 的突破,赋予系统自主规划并执行复杂任务的能力,而非仅回答问题。公司研究论文指出,Magma 可根据给定目标制定计划并采取行动,利用视觉和语言数据融合语言、空间与时间智能,应对多样化任务场景。

Magma 的核心在于两项技术:Set-of-Mark 通过数字标签识别可交互元素,如界面中的按钮或机器人可抓取的对象;Trace-of-Mark 则从视频中提取运动模式,提升空间理解能力。训练数据涵盖图像、视频、机器人操作及 UI 交互,确保其多模态适应性。Microsoft 声称,Magma 在基准测试中表现优异,例如在 VQAv2 视觉问答中得分 80.0,超越 GPT-4V 的 77.2,在机器人操作任务中也击败 OpenVLA。不过,AI 基准测试的科学性尚未完全验证,需待外部研究人员检验。

尽管潜力巨大,Magma 在复杂多步骤决策中仍存局限,Microsoft 表示将持续优化。公司计划下周在 GitHub 公开训练与推理代码,促进研究社区进一步探索。若兑现承诺,Magma 可推动 Microsoft AI 从文本交互升级为自主操作软件与机器人。与此同时,OpenAI 的 Operator 和 Google 的 Gemini 2.0 等项目表明,代理 AI 正成为行业热点。2025 年,这一领域已从引发争议转为研究主流,反映出 AI 文化的快速演变。

本简讯来自全球互联网及战略合作伙伴信息的编译与转载,仅为读者提供交流,有侵权或其它问题请及时告之,本站将予以修改或删除,未经正式授权严禁转载本文。邮箱:news@wedoany.com