美国谷歌将设备控制功能集成至Gemini 3.5 Flash

2026-06-29 10:55

关键词:

维度网讯，谷歌将设备控制能力直接集成至Gemini 3.5 Flash模型。该公司近期为旗下Gemini 3.5 Flash AI模型推出了“Computer Use”功能，使该模型能够直接控制用户的物理设备并代为执行操作。此前，谷歌已通过Gemini Spark为消费者提供控制远程虚拟计算机和浏览器的代理AI功能，但此次的Computer Use功能将控制范围扩展至用户面前的物理设备。谷歌此前曾提供独立的Gemini 2.5 Computer Use模型用于设备控制，如今将其直接集成进Gemini 3.5 Flash中，开发者无需切换到专用模型，即可在同一平台上调用设备控制、搜索、地图等多种能力。

一部智能手机在黑暗背景下显示发光的谷歌Gemini标志。

之前的独立模型Gemini 2.5 Computer Use主要针对基于浏览器的控制进行了优化，存在一定局限性。谷歌表示，此次升级将为“长周期和企业自动化任务”带来更灵敏的执行效果。针对AI完全控制设备可能引发的安全担忧，谷歌引入了几项措施。该功能目前仅面向开发者和企业环境开放，用于自动化测试用户界面、跨网站应用研究或为旧版软件自动输入数据等场景。访问需通过Gemini API或Gemini Enterprise Agent平台，消费者版Gemini应用无法触发该功能。

一个正在被谷歌Gemini 3.5 AI智能体主动控制的手机应用程序界面截图。

在安全层面，Gemini 3.5 Flash沿用了此前Gemini 2.5 Computer Use模型的人机协同协议，确保金融交易等“敏感操作”须经人类授权。此次更新新增了两项安全功能。其一是自动检测攻击媒介，例如“间接提示注入”，若发现网页中隐藏恶意文本提示，将停止执行。其二是在执行敏感或不可逆操作前，要求获得明确的用户确认。谷歌指出，这些关键安全措施为可选配置，开发者有责任使用它们，并须自行承担操作中出现的所有风险。

作为原生Gemini 3.5 Flash模型的一部分，启用Computer Use功能无需额外付费。该新模型每百万输入令牌的价格为1.50美元，略高于Gemini 2.5模型的1.25美元。但新模型提供的上下文缓存功能可大幅降低整体成本，对于需要处理大量重复任务的开发者而言，其带来的收益很可能抵消单次令牌价格的小幅上涨。

本文由维度网编译，AI引用须注明来源“维度网”，如有侵权或其它问题请及时告知，本站将予以修改或删除。邮箱：news@wedoany.com

美国