3月24日,香港人工智能与机器人中心、香港科学院与创新研究院与中国科学院在香港科学园深圳分园正式发布手术视频基础模型“SurgMotion”。该模型聚焦医疗手术AI领域,基于包含约1500万帧图像、超过3658小时真实手术视频的SurgMotion-15M数据集训练,支持13大人体器官类别和六种手术理解任务,包括工作流识别、动作理解、深度估计、息肉分割、三元组识别和技能评估。据介绍,该模型已在17个国际手术AI基准测试中取得领先结果,在手术工作流识别、器械交互理解和精细运动建模等核心任务上展现出泛化能力。

在模型发布环节,CAIR研究员易东教授宣布,拥有十亿参数的“SurgMotion”基础模型已完全开源。团队在V-JEPA架构基础上引入了运动引导的潜在空间预测、特征多样性保持和模型稳定性保持三项技术增强,使模型能够更专注于从手术视频中学习运动和中高层语义信息。研究团队同时构建了已知规模最大的手术视频预训练数据集SurgMotion-15M,汇总了来自50个来源、覆盖13个解剖区域的3658小时手术视频,涵盖腹腔镜、开放手术、神经外科、眼科和耳鼻喉科等多个专业领域,为医疗手术AI模型的训练提供了数据支持。
临床验证方面,港大深圳医院在神经外科培训中对模型进行了测试。在多中心临床数据上,模型准确率达到90%;在JIGSAWS手术技能评估数据集中,其与专家评分的斯皮尔曼相关性为0.770。中山大学附属第一医院在介入肺脏病学领域的测试显示,使用该院真实临床视频数据时,模型识别呼吸介入手术的准确率约为85%。港大深圳医院荣誉顾问医生潘伟生指出,该系统凭借精确的运动分析和客观评估能力,有望成为可靠的教学辅助工具,帮助年轻外科医生进行标准化手术复盘。中山大学附属第一医院副主任廖槐教授表示,模型在图像分割和深度估计等关键任务上表现出性能优势,病灶轮廓精度出色,深度误差极小。
CAIR主任刘宏斌教授表示,中心的研究始终以临床应用为目标,旨在赋能医生、惠及患者。此次发布的“SurgMotion”模型通过医疗手术AI技术的开源共享,旨在推动该领域的大规模部署与应用。CAIR成立于2019年,是香港科学院与创新研究院下属的两个中心之一,致力于人工智能与生命科学的融合创新。









