中国Catnip发布流式音视频模型MaineCoon

2026-06-21 09:49

关键词:

维度网讯，中国初创团队Catnip近日推出流式音视频模型缅因猫（MaineCoon），该模型可实现最长30分钟以上的实时音画同步生成，并在单张H100 GPU上达到47.5 FPS的推理速度，每秒成本可控制在0.001美元以内。

MaineCoon由一支仅10人的初创团队Catnip研发，团队总部位于中国。该项目于今年3月正式启动，由3名核心研究员在2个月内完成了模型训练、架构设计、数据基建和推理系统的全栈交付。

与传统音视频生成模型不同，MaineCoon首次将应用场景聚焦于社交交互。该模型支持边生成边播放、音画同出，首帧可在指令输出后1秒内出现。在GPU占满状态下，每秒推理成本可降至0.00025美元，是Veo 3的1/2000、Seedance的1/560。模型参数为22B，在单张H100上可稳定运行，甚至在成本更低的RTX Pro 6000推理卡上也能保持30 FPS以上的实时运行速度。

Catnip团队在技术报告中详细介绍了MaineCoon的训练与推理架构。训练框架分为三个阶段：自重采样（Self-Resampling）解决训练与推理之间的鸿沟问题；流式表征对齐（Representation Alignment）通过冻结预训练V-JEPA 2视觉编码器加速音画联合训练收敛；域感知偏好优化（DPO）结合强化在线策略蒸馏（ROPD），针对不同社交场景训练专门的偏好专家模型。整个模型在64张H100上、使用不到100万条数据、耗时10k GPU小时完成训练。

推理侧采用由三个独立智能控制器构成的Agentic推理框架：Director负责叙事与纠错，通过规划器逐节拍生成结构化提示词，并通过观测器监测生成质量；Cache Manager管理KV缓存的保留与清除策略，将角色外观、场景建立帧等作为长期记忆锚点；Buffer Controller控制前瞻缓冲区，在实时性与交互响应之间取得平衡。

Catnip团队还自建了首个社交短视频专用基准测试SocialVideo Bench，涵盖密集演讲、双人互动、音乐演唱、情绪表演、舞蹈、创意挑战、社交梗七大场景。评测显示，MaineCoon综合得分0.934，超越SoulX-FlashTalk（0.895）等7款主流音视频生成模型。

Catnip团队首次提出“社交世界模型”概念，认为其包含三个层面：感知层（读懂用户情绪）、模拟层（预测社交行为）、渲染层（实时生成音视频）。MaineCoon被视为渲染层面的突破。团队计划下一步摆脱传统AI对话的半双工交互模式，实现人类式连续、交错、多模态的实时双向交互，并推动模型落地为可交互的内容平台。

团队创始人杨姝瑞曾任职于TikTok和PixVerse，负责爆款模版特效的产品落地，其还有连续创业经历。首席科学家谢泽柯是香港科技大学（广州）助理教授，拥有中国科学技术大学本科、东京大学博士教育背景，曾在百度研究院参与大模型前沿研究，并长期担任NeurIPS、ICLR、ICML等AI顶级会议的领域主席。团队其他成员主要为应届毕业生。