谷歌发布ATLAS研究破解多语言AI训练密码

2026-02-03 17:34

关键词:

谷歌研究团队近日发布了名为ATLAS的多语言AI训练研究成果，这是目前公开规模最大的相关研究。该研究通过774次实验，覆盖400多种语言，为AI开发者提供了数据驱动的指导方案。

ATLAS研究创建了“转移矩阵”，揭示了不同语言在训练过程中的相互影响规律。研究发现，共享相同字母和语系的语言能够显著提升彼此的性能表现，例如挪威语与瑞典语、德语共同训练时效果更好，马来语受益于印尼语，阿拉伯语与希伯来语配合训练也有所改善。

这项多语言AI研究提供了三种实用工具：规模计算器能够帮助开发者确定模型扩展所需资源，语言配对指南通过热图展示最佳语言组合，预训练与微调决策公式则为模型构建策略提供参考。研究还证实了“多语言诅咒”现象确实存在，但影响程度有限，语言间的协同效应能够有效抵消容量限制。

当前超过半数的AI使用者使用非英语语言，但以往的规模定律研究多以英语为中心。ATLAS研究为多语言AI开发提供了明确指导，预计将推动下一代多语言模型在非英语语言表现上的显著提升。多家科技公司的模型开发者可能在近期采纳这些研究成果。