哈萨克斯坦通过首个大型语言模型拥抱人工智能的未来

扎尔巴耶夫大学智能系统与人工智能学院(ISSAI)向总统卡西姆-若马尔特·托卡耶夫授予了哈萨克斯坦首个大型语言模型(LLM),这是该国进军全球人工智能(AI)领域的重要里程碑。

该项目基于神经网络技术,为哈萨克语版本的ChatGPT奠定基础。

ISSAI 对外关系副主任兼首席数据科学家 Madina Abdrakhmanova 在接受哈萨克斯坦通讯社采访时表示:“KazLLM 是哈萨克斯坦 IT 界利用国内创新打造未来产品和服务的基石。”

她强调了国内语言模型的迫切需要,并指出了使用免费 ChatGPT 版本的风险。

“免费版本的原则是,您用数据而不是金钱来支付。数据是新的黄金。许多人没有意识到风险,特别是对于政府机构而言。国家机构必须使用在哈萨克斯坦境内托管的经过认证的应用程序,”阿布德拉赫曼诺娃说。

哈萨克斯坦与韩国、中国、阿联酋、英国和法国等国家一起开发适合其文化和历史背景的语言模型。

具有本地特色的人工智能

ISSAI 成立于 2019 年,最初只有一支小团队,专注于推进 AI 研究和构建哈萨克语数据集。KazLLM 的研发工作于 2024 年 4 月启动,由于缺乏国内服务器基础设施,该团队依靠云提供商进行培训。

“大约 95% 的数据来自开放源,另外还通过采用我们的最佳实践进行翻译生成了额外数据。我们的团队包括机器学习工程师和熟练的语言学家,”Abdrakhmanova 说道。

该团队为该项目筹集了超过 1500 亿个代币,该项目依赖于需要数十亿个参数的基于 Transformer 的模型。他们正在开发两个版本:一个 80 亿个参数的模型和一个 700 亿个参数的模型。

她说:“我们的模型可以理解哈萨克语、俄语、英语和土耳其语,可以执行翻译和文本摘要等任务,这对于分析工作特别有用。”

Abdrakhmanova 指出,该研究所计划让该模型能够处理语音和图像。“在全球范围内,许多产品将语言模型与图像理解相结合,但解决音频处理问题的产品却少之又少。这是一个更加复杂的挑战,但我们正在努力,”她说。

ISSAI 团队之前开发了Soyle App,这是哈萨克斯坦第一个多功能语音应用程序。与研究项目 KazLLM 不同,Soyle App 是基于早期研究而开发的一款完全开发的产品,并于 11 月 20 日发布。

Soyle 应用程序可以在哈萨克语、俄语、英语和土耳其语之间进行翻译,将语音转换为文本,将文本转换为语音。虽然它还不是实时的,但正在进一步开发中。

机遇与挑战

Abdrakhmanova 强调了留住本地人才的重要性。KazLLM 项目的学生来自纳扎尔巴耶夫大学、阿斯塔纳 IT 大学、Bolashak 奖学金毕业生和其他本地机构。

“许多才华横溢的学生离开哈萨克斯坦去国外发展。这样的项目让我们能够通过让他们参与令人兴奋且有意义的工作来留住他们,”她说。

据阿卜德拉赫曼诺娃介绍,该项目已培训了一支由70人组成的团队。

“开发大型语言模型在世界范围内都很少见。分享这种经验并培训我们年轻人的机会非常宝贵。我们的年轻人是独一无二的——积极进取、学习能力强,能够取得伟大的成就,”她说。

Abdrakhmanova 认为数据、人力资本和设备是人工智能发展的三大关键组成部分。

“我们目前是中亚地区唯一一家拥有 Nvidia 服务器的学术机构,Nvidia 是 AI 芯片和基础设施的主要供应商。然而,供应方面的挑战阻碍了我们的进步,”她说道。

她补充说,虽然资金和人才可以得到保障,但对先进的国内服务器的需求是一个重大瓶颈。

“如果我们为哈萨克斯坦购买服务器,我们不仅会获得训练模型的经验,还会获得使用这些服务器的能力,”Abdrakhmanova 说。

本简讯来自全球互联网及战略合作伙伴信息的编译与转载,仅为读者提供交流,有侵权或其它问题请及时告之,本站将予以修改或删除,未经正式授权严禁转载本文。邮箱:news@wedoany.com