过参数化神经网络:特征学习与过拟合的时间尺度分离
2025-12-06 17:18
来源:理论物理研究所 (IPhT)
收藏

现代神经网络参数众多,易对随机无结构数据“过拟合”,但使用结构化数据集训练时,却能学习到数据潜在特征。理解为何过度参数化不破坏模型有效性,是人工智能领域根本性挑战。斯坦福大学安德拉·蒙塔纳里和波兰物理技术研究所皮尔弗朗切斯科·乌尔巴尼提出,特征学习和过拟合虽同时存在,但在训练过程发生于不同时间尺度。

图中展示了具有 m 个隐藏神经元的双层神经网络的三种动态学习模式(分别标记为 MF、Feat. learning、Feat. learning 和 Overfit/Unlearn)。数据集包含 n 个样本,维度为 d,假设 n、m、d 均较大,且 n/(md) = 0.3。蓝色曲线代表测试误差(泛化误差),紫色曲线代表训练误差,红色曲线代表模型复杂度,以第二层权重 |W_2nd| 的 l^1 范数衡量。

计算机科学起源于艾伦·图灵的开创性工作,其“机器”与“指令”分离架构,是控制多种设备运行的基础。上世纪五十年代,开放式计算框架提出,机器可直接从庞大训练数据集学习必要指令,这标志着范式转变,如自动驾驶汽车通过大量数据训练,学习底层功能,找到驾驶软件,这正是机器学习和神经网络核心概念。人工神经网络训练中自动调整大量可调参数,简单神经网络理论基础是统计学习理论,其核心是网络拟合复杂度相对训练数据量较低时高效运行。然而,约十五年前,深度神经网络实证证明在简单任务上极其有效,尽管权重常比训练样本多,出现过参数化,但能学习有意义数据潜在特征,理解过参数化对神经网络性能影响成为核心问题。

在最近一项研究中,斯坦福大学Andrea Montanari和IPhT的Pierfrancesco Urbani提出解决方案,结合理论物理技术和统计分析,证明过拟合和特征学习在过参数化神经网络中同时存在,但出现时间点不同,即时间尺度分离现象。这种动态解耦源于训练算法和网络架构相互作用,模型越大,分离度越大,特征学习先于过拟合发生,揭示了大型过参数化神经网络工作原理的稳健机制。

更多信息:作者:Andrea Montanari 和 Pierfrancesco Urbani (2025) 标题:大型双层网络中泛化和过拟合的动态解耦。”来源:第三十九届神经信息处理系统年会。

本简讯来自全球互联网及战略合作伙伴信息的编译与转载,仅为读者提供交流,有侵权或其它问题请及时告之,本站将予以修改或删除,未经正式授权严禁转载本文。邮箱:news@wedoany.com