字节跳动于近日发布新一代视频生成人工智能模型Seedance 2.0。该模型具备多模态输入能力,可依据文本、图像、音频及视频等多种提示,生成长达15秒、并同步包含音频轨道的视频片段。此举标志着科技巨头在AI视频生成赛道的竞争进一步白热化。
据字节跳动官方博客介绍,Seedance 2.0在视频生成质量上实现显著跃升,尤其在对包含多个主体的复杂动态场景处理方面表现突出,并能更精确地响应用户指令。用户最多可上传九张图像、三段视频和三段音频作为输入,用以细化文本提示。模型在生成过程中将统筹考量镜头运动、视觉风格与动作编排,并可依据基于文本描述的故事板进行内容构建。
过去一年间,AI视频生成技术迭代迅速。Google推出具备音频合成能力的Veo 3,OpenAI发布Sora 2及其配套应用,Runway亦推出主打高指令遵循度的新版模型。在此背景下,Seedance 2.0的入局进一步丰富了多模态内容生成工具的技术路径与选择空间。
字节跳动展示的一项示例中,两名花样滑冰运动员同步完成起跳、空中旋转与落地等一系列高难度动作,且轨迹符合真实物理规律。公司称,该模型能够“在严格遵循现实世界物理法则的前提下,稳定执行复杂运动指令。”
社交媒体上已出现用户对Seedance 2.0的早期试用反馈。一段流传较广的生成视频中,演员布拉德·皮特与汤姆·克鲁斯被置于电影风格打斗场景内。《死侍》编剧瑞特·里斯在转发该片段时评论:“我讨厌这么说。我们可能完蛋了。”
其他演示内容显示,该模型能够生成动漫、卡通、科幻电影乃至模仿数字创作者风格的多种影像形态。目前Seedance 2.0的版权保护机制尚不明确,在X平台检索可见部分用户生成的片段中包含《龙珠Z》《恶搞之家》《宝可梦》等知名IP角色。
目前,Seedance 2.0仅通过字节跳动旗下的Dreamina AI创作平台及AI助手豆包对外开放。是否会与短视频平台TikTok进行整合,官方尚未作出披露。









