Chain-of-Zoom 框架无需重新训练即可实现超分辨率变焦
2025-06-05 14:47
来源:韩国科学技术研究院
收藏

韩国科学技术研究院人工智能部门的三位人工智能研究人员开发了一种所谓的 Chain-of-Zoom 框架,该框架允许使用现有的超分辨率模型生成极端超分辨率图像,而无需重新训练。

在arXiv预印本服务器上发表的研究中,Bryan Sangwoo Kim、Jeongsol Kim 和 Jong Chul Ye 分解了放大图像的过程,然后在每个步骤中使用现有的超分辨率模型来细化图像,从而逐步提高分辨率。

韩国团队首先注意到,现有的用于提高图片分辨率的框架在缩放时倾向于使用插值或回归,导致图像模糊。为了克服这些问题,他们采取了一种新方法——采用逐步缩放的过程,后续步骤会改进之前的步骤。

研究人员将他们的新框架称为 Chain-of-Zoom (CoZ),因为它采用了一系列用于提高分辨率的流程。

新框架在每个步骤中都使用现有的超分辨率 (SR) 模型来启动细化过程。在进行此类处理时,视觉语言模型 (VLM) 会生成描述性提示,帮助 SR 模型进行生成过程。最终生成第一幅图像的放大部分。

然后,该框架会重复这一过程,利用 VLM 提供的有用提示,不断提高缩放图像的分辨率,直到最终确定版本。为了确保 VLM 提供的提示切实有效,研究团队运用了强化学习技术。测试表明,该框架能够超越标准基准生成的图像。

研究人员指出,他们的框架无需重新训练即可提升图像质量,这意味着其可移植性更强。他们还指出,用户需要谨慎使用他们的框架。放大的图像并非真实图像,而是使用人工智能生成的。

因此,例如,如果它被用来辨认银行抢劫案中逃逸车辆牌照上的字母和/或数字,它可能会显示一些非常清晰的字母和数字 - 但它们可能与真车上的不匹配。

更多信息: Bryan Sangwoo Kim 等人,Chain-of-Zoom:通过尺度自回归和偏好对齐实现极端超分辨率,arXiv (2025)。期刊信息: arXiv

本简讯来自全球互联网及战略合作伙伴信息的编译与转载,仅为读者提供交流,有侵权或其它问题请及时告之,本站将予以修改或删除,未经正式授权严禁转载本文。邮箱:news@wedoany.com