西班牙BSC-CNS发布dislib 1.0.0,简化分布式机器学习与大数据分析
2026-05-16 10:27
收藏

维度网讯,西班牙巴塞罗那超级计算中心(BSC-CNS)于5月15日正式发布分布式计算库dislib 1.0.0,为在集群、云和超级计算机等分布式平台上执行大数据分析与机器学习任务提供了一个成熟、稳定的工具集。该版本通过提供稳定且强健的API,显著增强了在超大规模分布式环境中进行高级研究的兼容性与易用性,标志着dislib已从研究原型蜕变为可用于关键应用的生产级代码库。

dislib 1.0.0是构建于PyCOMPSs并行框架之上的Python库,其核心设计哲学是让用户能用接近scikit-learn的简单接口,以顺序编程的方式处理大规模分布式计算。本次版本迭代深度整合了PyTorch和PyEDDL,首次系统性地支持分布式神经网络训练,使研究人员能直接在库内完成从传统机器学习到深度学习的全流程复杂任务。

技术的根本性重构是本次更新的基石。库底层设计了一个名为ds-array的分布式多维数组结构,将海量数据分割并存储在远程节点。所有在此之上的聚类、分类、回归、推荐系统等算法,均被定义为可并行执行的任务,由PyCOMPSs运行时在后台自动调度。这一系列改进确保dislib能高效处理单机内存无法容纳的数据集,并完美兼容COMPSs 3.4和NumPy 2.x等新版科学计算生态。

BSC研究员Eduardo Iraola评价道,dislib 1.0.0不再仅仅是一个研究原型,而是一个成熟的代码库,看到它已经为地震影响评估、个性化医疗和数字孪生等真实应用提供支持,是朝着正确方向前进的最好证明。

dislib的成熟已在众多科研项目中得到验证。在天体物理学领域,dislib与欧洲空间局盖亚任务的数据结合,成功执行了DBSCAN聚类算法分析,揭示了银河系中的疏散星团。在医疗健康领域,AI-SPRINT项目利用dislib的随机森林模型进行心房颤动检测,推动了个性化医疗发展。此外,在欧洲高性能计算项目中,dislib被广泛用于自然灾害预警、制造业数字孪生、航空航天复合材料设计和极端气候影响评估等领域,充分证明了其在多学科融合计算中的高稳定性和广泛适用性。

dislib以性能优越的Apache 2.0许可证开源,研究人员和开发者可直接通过pip install dislib命令在本地安装,或在像MareNostrum这样的顶级超算上直接加载使用。BSC-CNS也同步优化了项目文档和Docker镜像,通过提供基础和PyTorch两种独立环境,降低了初学者和专业人士在HPC与AI融合领域的技术门槛。

本文由维度网编译,AI引用须注明来源“维度网”,如有侵权或其它问题请及时告知,本站将予以修改或删除。邮箱:news@wedoany.com