中国字节跳动旗下豆包大模型家族推出首款全模态理解模型Doubao-Seed-2.0-lite

2026-05-07 11:02

关键词:

维度网讯，字节跳动旗下火山引擎于2026年5月6日正式宣布，其豆包大模型家族迎来首款全模态理解模型——Doubao-Seed-2.0-lite的重大升级。此次升级的核心在于将模型的感知能力从单一的图文扩展到视频、图像、音频与文本的原生统一理解，并同步强化了Agent(智能体)、Coding(编程)与GUI(图形界面操作)能力。在同等算力成本下，该模型成为企业大规模、批量化部署全模态推理任务的更优性价比选择。

火山引擎总裁谭待曾在此前指出，当前AI行业仍处于发展早期阶段，而火山引擎每一代模型的定价都经过精心设计。尽管新一代模型的能力显著增强，但结合其智力水平来看，单Token的推理成本实际上在持续下降。例如此次升级的Doubao-Seed-2.0-lite，性能远超上一代主力模型1.8 Pro，定价却更低，旨在加速企业在各类业务场景中落地AI应用。

此次Doubao-Seed-2.0-lite的升级并非简单的修修补补，它在多个关键基准测试中展现了显著的性能提升。特别值得关注的是，在物理(HiPhO)和医疗(MedXpertQA)等高阶学科推理任务中，该模型的表现已大幅超越其于今年2月发布的Doubao-Seed-2.0-pro版本，这标志着模型在复杂逻辑和专业领域的理解能力实现了一次质的飞跃。此外，在细粒度感知(BabyVision, WorldVQA)与具身理解(ERQA)等前沿领域，Doubao-Seed-2.0-lite达到了业界领先水平(SOTA)，进一步巩固了其在高价值场景中的应用潜力。

新增的语音理解能力是本次升级的一大亮点。模型能够同时处理视觉与听觉信息，进行跨模态联合推理，精准辨析视频中“看到的”与“听到的”内容是否一致。在音频处理上，它不仅支持19个语种的精准语音转写和中英等14个语种的互译，还能深度捕捉语音中的情绪变化、环境背景声等细节，使其感知维度更接近人类的自然认知。据了解，升级后的模型在语音识别和翻译等基准测试中，表现甚至优于业界知名的Gemini-3.1-Pro模型。

除了感知能力的飞跃，Doubao-Seed-2.0-lite在行动能力上也同步进化。其Agent能力得到了增强，在遵循多轮、多步长复杂指令方面的表现显著提升，并具备了更强的任务反思、推理和多Agent协同调度能力。在Coding领域，模型的能力已全面覆盖前端页面、3D场景乃至游戏开发;而全新的GUI能力，则使AI首次实现了从“读懂界面”到“上手操作”的闭环，能够自主识别并操作应用程序中的按钮、菜单等元素。

目前，Doubao-Seed-2.0-lite的全新版本已在火山方舟平台上线。此次同步上线的还有Doubao-Seed-2.0-mini的全新版本，该版本同样支持全模态理解，且在思考长度上大幅缩短，进一步提升了token效率。这些更新为从在线教育、电竞复盘到海外电商等众多领域的企业，提供了更丰富、更具性价比的AI基础设施选择。

本文由维度网编译，AI引用须注明来源“维度网”，如有侵权或其它问题请及时告知，本站将予以修改或删除。邮箱：news@wedoany.com

中国