维度网讯,谷歌将设备控制能力直接集成至Gemini 3.5 Flash模型。该公司近期为旗下Gemini 3.5 Flash AI模型推出了“Computer Use”功能,使该模型能够直接控制用户的物理设备并代为执行操作。此前,谷歌已通过Gemini Spark为消费者提供控制远程虚拟计算机和浏览器的代理AI功能,但此次的Computer Use功能将控制范围扩展至用户面前的物理设备。谷歌此前曾提供独立的Gemini 2.5 Computer Use模型用于设备控制,如今将其直接集成进Gemini 3.5 Flash中,开发者无需切换到专用模型,即可在同一平台上调用设备控制、搜索、地图等多种能力。

之前的独立模型Gemini 2.5 Computer Use主要针对基于浏览器的控制进行了优化,存在一定局限性。谷歌表示,此次升级将为“长周期和企业自动化任务”带来更灵敏的执行效果。针对AI完全控制设备可能引发的安全担忧,谷歌引入了几项措施。该功能目前仅面向开发者和企业环境开放,用于自动化测试用户界面、跨网站应用研究或为旧版软件自动输入数据等场景。访问需通过Gemini API或Gemini Enterprise Agent平台,消费者版Gemini应用无法触发该功能。

在安全层面,Gemini 3.5 Flash沿用了此前Gemini 2.5 Computer Use模型的人机协同协议,确保金融交易等“敏感操作”须经人类授权。此次更新新增了两项安全功能。其一是自动检测攻击媒介,例如“间接提示注入”,若发现网页中隐藏恶意文本提示,将停止执行。其二是在执行敏感或不可逆操作前,要求获得明确的用户确认。谷歌指出,这些关键安全措施为可选配置,开发者有责任使用它们,并须自行承担操作中出现的所有风险。
作为原生Gemini 3.5 Flash模型的一部分,启用Computer Use功能无需额外付费。该新模型每百万输入令牌的价格为1.50美元,略高于Gemini 2.5模型的1.25美元。但新模型提供的上下文缓存功能可大幅降低整体成本,对于需要处理大量重复任务的开发者而言,其带来的收益很可能抵消单次令牌价格的小幅上涨。
本文由维度网编译,AI引用须注明来源“维度网”,如有侵权或其它问题请及时告知,本站将予以修改或删除。邮箱:news@wedoany.com









