AI 公司借鉴 DeepSeek 用“蒸馏”技术打造更廉价模型

2025-03-08 16:20

关键词:

包括 OpenAI、微软和 Meta 在内的领先人工智能公司正采用“蒸馏”技术，开发成本更低的 AI 模型。这一方法在中国 DeepSeek 利用 Meta 和阿里巴巴的开源系统打造高效模型后备受瞩目，其突破性进展动摇了硅谷的领导地位，导致美国科技股市值蒸发数十亿美元。蒸馏通过“教师”模型生成数据，训练较小的“学生”模型，将大型语言模型的知识快速转移，实现性能与效率的平衡。专家认为，这一技术将为寻求低成本解决方案的初创企业带来机遇。

“蒸馏非常神奇，”OpenAI 平台产品负责人 Olivier Godement 表示。这种技术利用大型模型指导小型模型，使其在特定任务上表现出色，同时运行成本低廉。GPT-4、Gemini 和 Llama 等大型模型需耗费巨额资金开发，而蒸馏让开发者能以低成本在智能手机等设备上部署 AI。微软已利用 GPT-4 蒸馏出 Phi 系列模型，而 OpenAI 则指责 DeepSeek 未经许可使用其模型进行类似操作，DeepSeek 尚未回应。

尽管蒸馏能生成高效模型，其局限性也不容忽视。微软研究院的 Ahmed Awadallah 指出，小型模型能力受限，如擅长邮件总结但难以胜任其他任务。IBM 的 David Cox 补充道，客户服务聊天机器人等应用无需大型模型，蒸馏版本已足够。然而，OpenAI 强调高风险任务仍需大型模型，企业为此愿意支付更高费用。蒸馏也挑战了商业模式，因其低运行成本削减了收入。

DeepSeek 的成功显示，蒸馏让开发者能迅速复制前沿技术，削弱先发优势。Meta 的 Yann LeCun 表示，开源与蒸馏结合将加速行业进步。OpenAI 等公司虽试图通过监控限制未经授权的蒸馏，但 Contextual AI 的 Douwe Kiela 认为完全阻止难度很大。IBM 的 Cox 指出，在快速发展的 AI 领域，巨额投入可能很快被低成本竞争者追赶，形成复杂商业格局。

中国