Microsoft 新 AI 模型 Magma 实现软件与机器人控制

2025-02-25 10:57

关键词:

Microsoft Research 周三发布了一款名为 Magma 的全新 AI 基础模型，结合视觉与语言处理能力，可控制软件界面和机器人系统。该模型旨在推动多模态 AI 发展，使其在数字与现实世界中执行多步骤任务。若其效果超出内部测试预期，这将成为通用 AI 技术的重要进展。Microsoft 强调，Magma 是首款不仅能处理文本、图像和视频等多模态数据，还能直接操作用户界面或物理对象的模型。此项目由 Microsoft 携手 KAIST、马里兰大学、威斯康星大学麦迪逊分校及华盛顿大学的研究人员共同开发。

不同于 Google 的 PALM-E、RT-2 或 Microsoft 此前基于 ChatGPT 的机器人项目——这些依赖单独模型处理感知与控制，Magma 将两者集成于单一架构。Microsoft 将其定位为“代理 AI” 的突破，赋予系统自主规划并执行复杂任务的能力，而非仅回答问题。公司研究论文指出，Magma 可根据给定目标制定计划并采取行动，利用视觉和语言数据融合语言、空间与时间智能，应对多样化任务场景。

Magma 的核心在于两项技术：Set-of-Mark 通过数字标签识别可交互元素，如界面中的按钮或机器人可抓取的对象;Trace-of-Mark 则从视频中提取运动模式，提升空间理解能力。训练数据涵盖图像、视频、机器人操作及 UI 交互，确保其多模态适应性。Microsoft 声称，Magma 在基准测试中表现优异，例如在 VQAv2 视觉问答中得分 80.0，超越 GPT-4V 的 77.2，在机器人操作任务中也击败 OpenVLA。不过，AI 基准测试的科学性尚未完全验证，需待外部研究人员检验。

尽管潜力巨大，Magma 在复杂多步骤决策中仍存局限，Microsoft 表示将持续优化。公司计划下周在 GitHub 公开训练与推理代码，促进研究社区进一步探索。若兑现承诺，Magma 可推动 Microsoft AI 从文本交互升级为自主操作软件与机器人。与此同时，OpenAI 的 Operator 和 Google 的 Gemini 2.0 等项目表明，代理 AI 正成为行业热点。2025 年，这一领域已从引发争议转为研究主流，反映出 AI 文化的快速演变。

美国