AI 公司借鉴 DeepSeek 用“蒸馏”技术打造更廉价模型
2025-03-08 16:20
收藏

包括 OpenAI、微软和 Meta 在内的领先人工智能公司正采用“蒸馏”技术,开发成本更低的 AI 模型。这一方法在中国 DeepSeek 利用 Meta 和阿里巴巴的开源系统打造高效模型后备受瞩目,其突破性进展动摇了硅谷的领导地位,导致美国科技股市值蒸发数十亿美元。蒸馏通过“教师”模型生成数据,训练较小的“学生”模型,将大型语言模型的知识快速转移,实现性能与效率的平衡。专家认为,这一技术将为寻求低成本解决方案的初创企业带来机遇。

“蒸馏非常神奇,”OpenAI 平台产品负责人 Olivier Godement 表示。这种技术利用大型模型指导小型模型,使其在特定任务上表现出色,同时运行成本低廉。GPT-4、Gemini 和 Llama 等大型模型需耗费巨额资金开发,而蒸馏让开发者能以低成本在智能手机等设备上部署 AI。微软已利用 GPT-4 蒸馏出 Phi 系列模型,而 OpenAI 则指责 DeepSeek 未经许可使用其模型进行类似操作,DeepSeek 尚未回应。

尽管蒸馏能生成高效模型,其局限性也不容忽视。微软研究院的 Ahmed Awadallah 指出,小型模型能力受限,如擅长邮件总结但难以胜任其他任务。IBM 的 David Cox 补充道,客户服务聊天机器人等应用无需大型模型,蒸馏版本已足够。然而,OpenAI 强调高风险任务仍需大型模型,企业为此愿意支付更高费用。蒸馏也挑战了商业模式,因其低运行成本削减了收入。

DeepSeek 的成功显示,蒸馏让开发者能迅速复制前沿技术,削弱先发优势。Meta 的 Yann LeCun 表示,开源与蒸馏结合将加速行业进步。OpenAI 等公司虽试图通过监控限制未经授权的蒸馏,但 Contextual AI 的 Douwe Kiela 认为完全阻止难度很大。IBM 的 Cox 指出,在快速发展的 AI 领域,巨额投入可能很快被低成本竞争者追赶,形成复杂商业格局。

本简讯来自全球互联网及战略合作伙伴信息的编译与转载,仅为读者提供交流,有侵权或其它问题请及时告之,本站将予以修改或删除,未经正式授权严禁转载本文。邮箱:news@wedoany.com