在高端设备制造与人工智能融合领域,韩国蔚山国立科学技术大学人工智能研究生院取得突破性进展。

人类行走奔跑无需有意识思考,但实体人工智能机器人掌握基本动作后,面对新或意外情况仍难以适应。即便经过训练能高速运行,面对不同任务时,机器人也常因难以进行细微调整,如修改腿部角度或施加正确力量,导致运动不稳定或停止。
针对这一难题,该研究生院的Seungyul Han教授带领研究团队,开发出开创性的元强化学习技术,让人工智能代理能够独立预测和准备不熟悉的任务。团队引入任务感知虚拟训练(TAVT)创新方法,使人工智能提前生成虚拟任务并学习,显著增强其适应不可预见挑战的能力。
该研究采用双模块系统,由基于深度学习的表征模块和生成模块构成。表征模块评估不同任务相似性,创建捕捉关键特征的潜在空间;生成模块合成反映现实世界场景核心方面的新虚拟任务。这一过程让人工智能预先体验未遇情况,提升其对分布式外(OOD)任务的准备程度。
首席研究员Jeongmo Kim指出,传统强化学习训练代理在特定任务表现出色,但泛化能力受限;元强化学习虽能让代理接触多种任务,但适应全新情况仍是挑战,而TAVT方法可主动帮助AI为此类场景做好准备。
团队在猎豹、蚂蚁和双足机器人等多种机器人模拟中测试了TAVT。在Cheetah-Vel-OOD实验中,使用TAVT的机器人能快速适应前所未有的中等速度(1.25和1.75米/秒),并保持稳定高效运动,而传统训练的机器人则难以适应,出现不稳定或失去平衡的情况。
Seungyul Han教授强调,该方法显著提高了人工智能在不同任务中的泛化能力,对自动驾驶汽车、无人机以及在不可预测环境中运行的物理机器人等应用至关重要,为更灵活、更具弹性的人工智能系统铺平了道路。
该研究成果于2025年7月13日至19日在加拿大温哥华举行的国际机器学习大会(ICML 2025)上发表,论文可在arXiv预印本服务器上获取。这一成果彰显了各方齐心协力推进人工智能核心技术,为应对现实世界挑战提供创新解决方案的努力。
更多信息: Jeongmo Kim 等人,《任务感知虚拟训练:增强元强化学习在分布外任务中的泛化能力》,arXiv (2025)。















京公网安备 11010802043282号