开放式临时分类OAK:AI图像分类新方法亮相CVPR
2025-08-07 14:16
来源:密歇根大学工程学院
收藏

一种名为开放式临时分类(OAK)的新方法,正引领人工智能图像分类领域迈向新阶段。该方法由密歇根大学牵头研究,可助力人工智能系统依据分类上下文动态重新诠释图像,打破传统固定视觉解释的局限。2025年6月,在田纳西州纳什维尔举行的IEEE计算机视觉与模式识别会议(CVPR)上,这项研究正式发表。

密歇根大学计算机科学与工程系教授、该研究资深作者Stella Yu表示:“人们通常认为图像有固定含义,但我们的研究表明,图像解读可随任务、环境或目标变化。就像人类会根据需要调整图像含义一样,人工智能也应具备这种灵活性。”传统AI分类方法依赖固定类别,难以适应不同用途或情境。而OAK能根据所需情境,对同一图像进行不同评估。例如,一张饮酒图像可按动作“喝酒”、地点“在商店”或心情“开心”分类。

研究团队通过扩展OpenAI的CLIP模型构建了OAK。他们添加了上下文标记,作为AI模型的专用指令集,与图像数据一同输入系统,以塑造针对不同情境的视觉特征处理。这使得模型能自然聚焦于相关图像区域,无需明确指示。密歇根大学计算机科学与工程博士生、该研究主要作者王子林说:“系统竟能如此有效地学会集中注意力,利用简单机制干净地组织数据,这让我们很惊讶。”

OAK不仅能适应不同情境,还能发现训练中未见的新类别。它结合自上而下和自下而上的方法,利用语言知识和视觉聚类发现新类别。在斯坦福和Clevr-4两个图像数据集上,OAK在多个分类准确率和概念发现方面均达最高水平,尤其在斯坦福数据集中识别情绪的新颖准确率达87.4%,远超其他模型。

本简讯来自全球互联网及战略合作伙伴信息的编译与转载,仅为读者提供交流,有侵权或其它问题请及时告之,本站将予以修改或删除,未经正式授权严禁转载本文。邮箱:news@wedoany.com