过参数化神经网络：特征学习与过拟合的时间尺度分离

2025-12-06 17:18

来源：理论物理研究所 (IPhT)

现代神经网络参数众多，易对随机无结构数据“过拟合”，但使用结构化数据集训练时，却能学习到数据潜在特征。理解为何过度参数化不破坏模型有效性，是人工智能领域根本性挑战。斯坦福大学安德拉·蒙塔纳里和波兰物理技术研究所皮尔弗朗切斯科·乌尔巴尼提出，特征学习和过拟合虽同时存在，但在训练过程发生于不同时间尺度。

图中展示了具有 m 个隐藏神经元的双层神经网络的三种动态学习模式（分别标记为 MF、Feat. learning、Feat. learning 和 Overfit/Unlearn）。数据集包含 n 个样本，维度为 d，假设 n、m、d 均较大，且 n/(md) = 0.3。蓝色曲线代表测试误差（泛化误差），紫色曲线代表训练误差，红色曲线代表模型复杂度，以第二层权重 |W_2nd| 的 l^1 范数衡量。

计算机科学起源于艾伦·图灵的开创性工作，其“机器”与“指令”分离架构，是控制多种设备运行的基础。上世纪五十年代，开放式计算框架提出，机器可直接从庞大训练数据集学习必要指令，这标志着范式转变，如自动驾驶汽车通过大量数据训练，学习底层功能，找到驾驶软件，这正是机器学习和神经网络核心概念。人工神经网络训练中自动调整大量可调参数，简单神经网络理论基础是统计学习理论，其核心是网络拟合复杂度相对训练数据量较低时高效运行。然而，约十五年前，深度神经网络实证证明在简单任务上极其有效，尽管权重常比训练样本多，出现过参数化，但能学习有意义数据潜在特征，理解过参数化对神经网络性能影响成为核心问题。

在最近一项研究中，斯坦福大学Andrea Montanari和IPhT的Pierfrancesco Urbani提出解决方案，结合理论物理技术和统计分析，证明过拟合和特征学习在过参数化神经网络中同时存在，但出现时间点不同，即时间尺度分离现象。这种动态解耦源于训练算法和网络架构相互作用，模型越大，分离度越大，特征学习先于过拟合发生，揭示了大型过参数化神经网络工作原理的稳健机制。

更多信息：作者：Andrea Montanari 和 Pierfrancesco Urbani (2025) 标题：大型双层网络中泛化和过拟合的动态解耦。”来源：第三十九届神经信息处理系统年会。

波兰

美国

战略性新兴产业新一代信息技术

本简讯来自全球互联网及战略合作伙伴信息的编译与转载,仅为读者提供交流,有侵权或其它问题请及时告之,本站将予以修改或删除,未经正式授权严禁转载本文。邮箱:news@wedoany.com

上一篇：维也纳大学揭示原子级薄晶体熔化新机制

下一篇：人工智能文化偏见新发现：食物视角下的全球数据集构建