OpenEuroLLM助力欧洲数字主权,开源语言模型覆盖欧盟全语言
2025-03-02 16:30
收藏

大型语言模型(LLM)正成为欧洲数字主权战略的核心。上周,OpenEuroLLM项目正式亮相,计划打造一系列“真正”开源的LLM,覆盖欧盟24种官方语言及候选加入国如阿尔巴尼亚的语言。这一合作由布拉格查理大学的计算语言学家Jan Hajič与芬兰Silo AI首席执行官Peter Sarlin共同领导,汇聚约20家机构。Silo AI去年被AMD以6.65亿美元收购,凸显其技术实力。该项目旨在强化欧洲关键技术自主性,与欧盟近期110亿美元主权卫星计划及云巨头本地化投资趋势相呼应。

OpenEuroLLM预算为3740万欧元,其中约2000万欧元来自欧盟“数字欧洲”计划,依托EuroHPC超级计算机中心(分布于西班牙、意大利、芬兰、荷兰)的计算支持,总预算间接获益于70亿欧元的EuroHPC项目。然而,涉及众多学术机构与企业,如德国Aleph Alpha、西班牙Prompsit及法国LightOn,其协作效率备受争议。法学硕士公司Pleias联合创始人Anastasia Stasenko指出,小型专注团队如Mistral AI更具竞争力,而非多方联盟。项目延续Hajič自2022年协调的高性能语言技术(HPLT),利用其数据集及经验,计划2026年中发布首版模型,2028年完成。

核心目标是开发透明的多语言LLM,保留欧盟语言与文化多样性。Hajič承认,低资源语言的平等性具挑战性,但依托HPLT的4.5PB网络数据及Common Crawl资源,数据基础已初具规模。开源定义上,项目力求模型、代码全公开,但受版权限制,部分训练数据或仅限审计查看,以符合欧盟AI法案。相比之下,EuroLLM项目与之目标相近,却未见协调,反映欧洲AI研发的碎片化隐忧。Sarlin强调,OpenEuroLLM专注基础模型而非消费产品,预算足以支撑,其价值在于为欧洲企业提供自主AI基础设施。

本简讯来自全球互联网及战略合作伙伴信息的编译与转载,仅为读者提供交流,有侵权或其它问题请及时告之,本站将予以修改或删除,未经正式授权严禁转载本文。邮箱:news@wedoany.com