中国Catnip发布流式音视频模型MaineCoon
2026-06-21 09:49
收藏

维度网讯,中国初创团队Catnip近日推出流式音视频模型缅因猫(MaineCoon),该模型可实现最长30分钟以上的实时音画同步生成,并在单张H100 GPU上达到47.5 FPS的推理速度,每秒成本可控制在0.001美元以内。

MaineCoon由一支仅10人的初创团队Catnip研发,团队总部位于中国。该项目于今年3月正式启动,由3名核心研究员在2个月内完成了模型训练、架构设计、数据基建和推理系统的全栈交付。

与传统音视频生成模型不同,MaineCoon首次将应用场景聚焦于社交交互。该模型支持边生成边播放、音画同出,首帧可在指令输出后1秒内出现。在GPU占满状态下,每秒推理成本可降至0.00025美元,是Veo 3的1/2000、Seedance的1/560。模型参数为22B,在单张H100上可稳定运行,甚至在成本更低的RTX Pro 6000推理卡上也能保持30 FPS以上的实时运行速度。

Catnip团队在技术报告中详细介绍了MaineCoon的训练与推理架构。训练框架分为三个阶段:自重采样(Self-Resampling)解决训练与推理之间的鸿沟问题;流式表征对齐(Representation Alignment)通过冻结预训练V-JEPA 2视觉编码器加速音画联合训练收敛;域感知偏好优化(DPO)结合强化在线策略蒸馏(ROPD),针对不同社交场景训练专门的偏好专家模型。整个模型在64张H100上、使用不到100万条数据、耗时10k GPU小时完成训练。

推理侧采用由三个独立智能控制器构成的Agentic推理框架:Director负责叙事与纠错,通过规划器逐节拍生成结构化提示词,并通过观测器监测生成质量;Cache Manager管理KV缓存的保留与清除策略,将角色外观、场景建立帧等作为长期记忆锚点;Buffer Controller控制前瞻缓冲区,在实时性与交互响应之间取得平衡。

Catnip团队还自建了首个社交短视频专用基准测试SocialVideo Bench,涵盖密集演讲、双人互动、音乐演唱、情绪表演、舞蹈、创意挑战、社交梗七大场景。评测显示,MaineCoon综合得分0.934,超越SoulX-FlashTalk(0.895)等7款主流音视频生成模型。

Catnip团队首次提出“社交世界模型”概念,认为其包含三个层面:感知层(读懂用户情绪)、模拟层(预测社交行为)、渲染层(实时生成音视频)。MaineCoon被视为渲染层面的突破。团队计划下一步摆脱传统AI对话的半双工交互模式,实现人类式连续、交错、多模态的实时双向交互,并推动模型落地为可交互的内容平台。

团队创始人杨姝瑞曾任职于TikTok和PixVerse,负责爆款模版特效的产品落地,其还有连续创业经历。首席科学家谢泽柯是香港科技大学(广州)助理教授,拥有中国科学技术大学本科、东京大学博士教育背景,曾在百度研究院参与大模型前沿研究,并长期担任NeurIPS、ICLR、ICML等AI顶级会议的领域主席。团队其他成员主要为应届毕业生。

Catnip团队此前在社交平台X上发布了技术报告,随即获得多方关注,LTX官方也主动寻求合作。团队透露已在年初连续获得红杉、明势等投资机构的天使轮融资。

本文由维度网编译,AI引用须注明来源“维度网”,如有侵权或其它问题请及时告知,本站将予以修改或删除。邮箱:news@wedoany.com