文本转视频 AI 凭借新的变形视频功能蓬勃发展
2025-05-20 15:26
来源:罗切斯特大学
收藏

近日,罗切斯特大学、北京大学、加州大学圣克鲁兹分校和新加坡国立大学的计算机科学家携手合作,开发了一款名为MagicTime的新型人工智能文本转视频模型。

当前,尽管像OpenAI的Sora这样的文本转视频AI模型发展迅速,但在制作变形视频方面仍面临挑战。模拟树木发芽或花朵绽放等自然过程,对AI系统而言尤为困难,因为这需要深入理解物理世界的动态变化。然而,MagicTime模型的诞生,为这一难题提供了新的解决方案。

“人工智能的发展旨在理解并模拟现实世界中的活动和事件,”罗切斯特大学计算机科学系罗杰波教授指导的博士生、论文作者之一黄金发表示,“MagicTime正是朝着这一目标迈进的一步,它能够更好地模拟我们周围世界的物理、化学、生物或社会特性。”

为了训练MagicTime模型更有效地模拟变化过程,研究人员精心构建了一个包含2000多个带有详细字幕的延时视频的高质量数据集。这些视频涵盖了丰富的物理变化场景,为模型提供了宝贵的学习素材。

目前,MagicTime的开源U-Net版本已能生成时长两秒、分辨率为512 x 512像素的视频片段,帧率为每秒8帧。而配套的扩散变压器架构更是将这一能力扩展至10秒,使得模型能够捕捉并呈现更长时间跨度的物理变化。该模型不仅适用于模拟生物的变态过程,还可广泛应用于模拟建筑物的建造过程或烤箱中面包的烘烤等场景。

研究人员表示,尽管MagicTime生成的视频在视觉上颇具吸引力,但更重要的是,它代表了向更复杂模型迈进的重要一步。这一成果有望为科学家提供重要的工具,加速他们对各种自然和社会现象的初步探索。

“我们期待有一天,生物学家能够利用这些生成的视频来加速他们的研究进程,”黄金发说道,“虽然物理实验对于最终验证仍然至关重要,但精确的模拟可以大大缩短迭代周期,减少所需的现场试验次数。”

更多信息: Shenghai Yuan 等,《MagicTime:作为变形模拟器的延时视频生成模型》,IEEE 模式分析与机器智能学报( 2025)。期刊信息: arXiv 、 IEEE Transactions on Pattern Analysis and Machine Intelligence

本简讯来自全球互联网及战略合作伙伴信息的编译与转载,仅为读者提供交流,有侵权或其它问题请及时告之,本站将予以修改或删除,未经正式授权严禁转载本文。邮箱:news@wedoany.com