当用户借助ChatGPT生成吉卜力风格图像时,实际图像由DALL-E生成,这款基于扩散模型的工具虽能生成惊艳图像,却存在局限性,如偶尔出现三指手或面部扭曲等错误,且在计算资源有限的设备上运行面临挑战。由蔚山科学技术大学(UNIST)人工智能研究生院柳在俊教授和尹成焕教授领衔的研究团队,提出新生成式人工智能设计原则,旨在解决这些问题。

扩散模型在DALL-E和稳定扩散等热门人工智能应用中广泛使用,能完成风格迁移、卡通创作等任务,但部署时面临误差累积、性能下降及易受对抗性攻击等挑战。研究团队发现,这些问题源于模型泛化能力有限,即在新数据或不熟悉环境中可靠运行能力不足。
为解决此问题,研究团队提出引导训练过程朝“平坦极小值”发展,这些区域位于模型损失函数曲面上,具有宽阔平缓的曲面,有助于模型在受微小扰动或噪声影响时保持稳定可靠性能。在众多寻找平坦极小值的算法中,锐度感知最小化(SAM)算法效果最佳。使用SAM训练的模型在快速生成任务中误差累积更少,压缩后输出质量更高,对对抗性攻击抵抗力提高七倍,显著增强模型鲁棒性。
研究团队指出,关注平坦最小值可为误差累积、量化误差和对抗性漏洞等挑战提供统一解决方案。他们提供的框架不仅提升图像质量,还能设计可信赖、功能全面的生成式人工智能系统,有效应用于各行业和实际场景,且在数据有限时也能高效训练大规模模型。
更多信息: Taehwan Lee 等人,《理解生成模型中的扁平性:其作用和益处》,arXiv (2025)。期刊信息: arXiv













京公网安备 11010802043282号