中国生数科技发布实时交互式视频模型Vidu S1

2026-07-04 10:43

关键词:

维度网讯，7月3日，在2026年全球数字经济大会上，生数科技（ShengShu Technology）发布下一代视频基础模型Vidu S1，该模型实现了实时交互式视频生成，将AI视频从生成单一片段转变为支持连续实时交互。

Vidu S1支持通过语音引导实现角色控制的实时视频对话，用户可通过语音输入自然地控制AI化身，并进行无限连续交互。该模型提供540P（960x540）分辨率，帧率25 FPS（最高42 FPS），允许用户从单张图片（真人、动漫角色甚至宠物）即时创建个性化互动角色，并搭配可定制语音。整个系统可在消费级GPU上运行，大幅降低了实时交互视频生成的硬件门槛。

现有大多数视频生成模型采用离线工作流，用户提交提示词后等待视频生成，内容一旦生成便固定不变。Vidu S1引入实时交互式视频生成框架，使用户能够在实时视频对话中持续提供语音输入，模型将语音输入与对话上下文和当前视觉上下文一起处理，使后续视频内容能够实时生成和更新。该模型不依赖音频驱动的唇部运动和预定义动画库，而是理解语音输入的语义、意图和情感上下文，实时生成同步的唇部运动、面部表情、眼球运动、手势、身体姿态和全身动作。

Vidu S1采用自回归扩散（AR+Diffusion）架构，不是预先生成整个视频，而是根据已生成的帧、当前语音指令和对话上下文，持续预测并生成后续视频内容。当用户提供新指令时，模型实时更新角色的表情、动作和后续行为，使交互在对话过程中持续演化。该模型是无限时长实时视频生成的领先模型，在保持角色身份一致性、维持自然连贯运动、持续处理用户输入的基础上，实现长时间对话中的实时响应。

为了实现540P（960x540）分辨率、25 FPS的实时交互视频生成，并支持最高42 FPS，生数科技在模型层面采用了推理加速技术，包括TurboDiffusion、低比特SageAttention、稀疏注意力方法SLA和SpargeAttention，通过少步生成、模型量化和优化推理内核降低每帧计算成本。在系统层面，推理服务引擎TurboServe高效调度推理工作负载，根据交互状态动态分配计算资源。这些优化使Vidu S1能够在消费级GPU上运行实时交互生成，为实时视频对话、互动直播、AI伴侣、互动游戏和XR体验等应用提供了技术基础。

在角色创建方面，Vidu S1引入完全生成式工作流，用户只需上传一张图片，模型即可捕捉角色的身份、外观和视觉风格，实时生成同步的唇部运动、面部表情、手势和全身动作，无需针对特定角色进行建模和训练。无论是基于真人、动漫角色还是宠物，一张图片即可转化为实时交互角色，并支持可定制语音。

Vidu S1现已公开可用，用户可从自己的定制图片中实时创建AI化身并进行交互。其API平台可供开发者和企业合作伙伴构建实时交互应用。

新加坡