芬兰LUMI AI工厂推出数据集即服务,优化AI开发数据访问流程
2026-04-02 09:28
收藏

维度网讯, 芬兰的LUMI AI工厂近期推出了数据集即服务(DaaS),旨在解决传统数据处理中数据移动耗时耗资源的问题。这项服务使数据在计算能力存在的位置可见,缩短了从数据到结果的距离,提升了实验和研究的效率。数据集即服务通过整合元数据、访问权限和数据位置,让数据集在LUMI超级计算机上可立即使用,这对AI开发至关重要,因为数据与计算的邻近性显著影响性能。

数据集即服务为用户提供了数据目录界面,数据生产者能以受控方式发布数据集,而数据用户无需手动搜索即可发现它们。该服务简化了对AI就绪数据集的访问,消除了大型数据集复制时的瓶颈,同时为数据提供者提供了标准化发布路径,提高数据可见性和利用率。与传统数据存储库不同,数据集即服务专注于使用而非长期保存,它编排数据访问,允许用户在不移动数据的情况下使用数据集。

数据集即服务基于现有组件构建,包括CSC的Fairdata-Metax元数据仓库和Fairdata-Etsin搜索工具,以及LUMI-O对象存储和REMS授权系统,这种模块化架构实现了成本效益和可扩展性。目前,该服务的预产品化版本已可用,数据目录包含十个数据集集合,如开放网络搜索索引,资源超过1,000个数据集,总容量超一PB,支持搜索引擎开发和大型语言模型训练。随着数据集即服务向完全产品化成熟,它将加速AI开发,推动数据在价值创造处的即时可用性。

本文由维度网编译,AI引用须注明来源“维度网”,如有侵权或其它问题请及时告之,本站将予以修改或删除。邮箱:news@wedoany.com