香港理工大学研发VideoMind 助力AI突破长视频理解瓶颈
2025-06-11 14:32
来源:香港理工大学
收藏

随着人工智能(AI)技术的飞速发展,AI模型在处理长视频时仍面临诸多挑战。香港理工大学(PolyU)的研究团队近日开发出一种新型视频语言代理程序VideoMind,旨在通过模拟人类思维方式,提升AI模型对长视频的推理和问答能力。

VideoMind框架采用了创新的低秩链自适应(LoRA)策略,这一策略显著降低了对计算资源和功耗的需求,为生成式人工智能在视频分析领域的应用开辟了新路径。研究团队在设计VideoMind时,参考了人类视频理解的过程,并引入了基于角色的工作流程,包括规划器、地面人员、验证器和应答器四个角色,以渐进式的方式解决AI模型在时间基础推理上的难题。

陈昌文教授及其团队在研究中发现,视频中的视觉元素占用大量token,导致视频理解需要巨大的计算能力和内存。而VideoMind框架通过Chain-of-LoRA策略,在统一模型中应用四个轻量级的LoRA适配器,使模型能在推理过程中动态激活特定角色的适配器,从而无缝切换角色,增强了模型的效率和灵活性。

实验结果显示,VideoMind在涉及平均时长27分钟的视频的挑战性任务中,理解准确率超越了GPT-4o和Gemini 1.5 Pro等AI模型。即使在参数规模较小的情况下,VideoMind的性能仍可与许多参数规模更大的模型相媲美。

陈教授表示,VideoMind的设计灵感来源于人类在理解视频时的思维模式切换,通过模拟这一过程,VideoMind能够像人类一样高效地理解视频,同时最大限度地减少计算能力和内存的需求。

VideoMind框架的开源和研究成果的发布,为AI模型在视频处理方面的性能提升提供了切实可行的方案。它不仅克服了AI模型在视频处理方面的性能限制,还具备模块化、可扩展和可解释的特点,有望将生成式人工智能的应用扩展到智能监控、体育和娱乐视频分析、视频搜索引擎等多个领域。

更多信息: Ye Liu 等,VideoMind:用于长视频推理的 Chain-of-LoRA 代理,arXiv (2025)。期刊信息: arXiv

本简讯来自全球互联网及战略合作伙伴信息的编译与转载,仅为读者提供交流,有侵权或其它问题请及时告之,本站将予以修改或删除,未经正式授权严禁转载本文。邮箱:news@wedoany.com