OpenEuroLLM助力欧洲数字主权，开源语言模型覆盖欧盟全语言

2025-03-02 16:30

关键词:

大型语言模型(LLM)正成为欧洲数字主权战略的核心。上周，OpenEuroLLM项目正式亮相，计划打造一系列“真正”开源的LLM，覆盖欧盟24种官方语言及候选加入国如阿尔巴尼亚的语言。这一合作由布拉格查理大学的计算语言学家Jan Hajič与芬兰Silo AI首席执行官Peter Sarlin共同领导，汇聚约20家机构。Silo AI去年被AMD以6.65亿美元收购，凸显其技术实力。该项目旨在强化欧洲关键技术自主性，与欧盟近期110亿美元主权卫星计划及云巨头本地化投资趋势相呼应。

OpenEuroLLM预算为3740万欧元，其中约2000万欧元来自欧盟“数字欧洲”计划，依托EuroHPC超级计算机中心(分布于西班牙、意大利、芬兰、荷兰)的计算支持，总预算间接获益于70亿欧元的EuroHPC项目。然而，涉及众多学术机构与企业，如德国Aleph Alpha、西班牙Prompsit及法国LightOn，其协作效率备受争议。法学硕士公司Pleias联合创始人Anastasia Stasenko指出，小型专注团队如Mistral AI更具竞争力，而非多方联盟。项目延续Hajič自2022年协调的高性能语言技术(HPLT)，利用其数据集及经验，计划2026年中发布首版模型，2028年完成。

核心目标是开发透明的多语言LLM，保留欧盟语言与文化多样性。Hajič承认，低资源语言的平等性具挑战性，但依托HPLT的4.5PB网络数据及Common Crawl资源，数据基础已初具规模。开源定义上，项目力求模型、代码全公开，但受版权限制，部分训练数据或仅限审计查看，以符合欧盟AI法案。相比之下，EuroLLM项目与之目标相近，却未见协调，反映欧洲AI研发的碎片化隐忧。Sarlin强调，OpenEuroLLM专注基础模型而非消费产品，预算足以支撑，其价值在于为欧洲企业提供自主AI基础设施。

芬兰