维度网讯,7月3日,在2026年全球数字经济大会上,生数科技(ShengShu Technology)发布下一代视频基础模型Vidu S1,该模型实现了实时交互式视频生成,将AI视频从生成单一片段转变为支持连续实时交互。

Vidu S1支持通过语音引导实现角色控制的实时视频对话,用户可通过语音输入自然地控制AI化身,并进行无限连续交互。该模型提供540P(960x540)分辨率,帧率25 FPS(最高42 FPS),允许用户从单张图片(真人、动漫角色甚至宠物)即时创建个性化互动角色,并搭配可定制语音。整个系统可在消费级GPU上运行,大幅降低了实时交互视频生成的硬件门槛。
现有大多数视频生成模型采用离线工作流,用户提交提示词后等待视频生成,内容一旦生成便固定不变。Vidu S1引入实时交互式视频生成框架,使用户能够在实时视频对话中持续提供语音输入,模型将语音输入与对话上下文和当前视觉上下文一起处理,使后续视频内容能够实时生成和更新。该模型不依赖音频驱动的唇部运动和预定义动画库,而是理解语音输入的语义、意图和情感上下文,实时生成同步的唇部运动、面部表情、眼球运动、手势、身体姿态和全身动作。
Vidu S1采用自回归扩散(AR+Diffusion)架构,不是预先生成整个视频,而是根据已生成的帧、当前语音指令和对话上下文,持续预测并生成后续视频内容。当用户提供新指令时,模型实时更新角色的表情、动作和后续行为,使交互在对话过程中持续演化。该模型是无限时长实时视频生成的领先模型,在保持角色身份一致性、维持自然连贯运动、持续处理用户输入的基础上,实现长时间对话中的实时响应。
为了实现540P(960x540)分辨率、25 FPS的实时交互视频生成,并支持最高42 FPS,生数科技在模型层面采用了推理加速技术,包括TurboDiffusion、低比特SageAttention、稀疏注意力方法SLA和SpargeAttention,通过少步生成、模型量化和优化推理内核降低每帧计算成本。在系统层面,推理服务引擎TurboServe高效调度推理工作负载,根据交互状态动态分配计算资源。这些优化使Vidu S1能够在消费级GPU上运行实时交互生成,为实时视频对话、互动直播、AI伴侣、互动游戏和XR体验等应用提供了技术基础。
在角色创建方面,Vidu S1引入完全生成式工作流,用户只需上传一张图片,模型即可捕捉角色的身份、外观和视觉风格,实时生成同步的唇部运动、面部表情、手势和全身动作,无需针对特定角色进行建模和训练。无论是基于真人、动漫角色还是宠物,一张图片即可转化为实时交互角色,并支持可定制语音。
Vidu S1现已公开可用,用户可从自己的定制图片中实时创建AI化身并进行交互。其API平台可供开发者和企业合作伙伴构建实时交互应用。










