MicrosoftAI工具支持具有万亿参数的超大型模型

时间:2020-09-23 09:56:53来源:
导读微软公司已经发布了其开源DeepSpeed工具的新版本,据称它将能够创建具有一万亿个参数的深度学习模型,是全球当前最大模型的五倍多。该公司

微软公司已经发布了其开源DeepSpeed工具的新版本,据称它将能够创建具有一万亿个参数的深度学习模型,是全球当前最大模型的五倍多。

该公司还看到了周四发布的该工具,该工具促进了从事较小项目的开发人员的工作。 DeepSpeed是用于执行人工智能训练的软件库。它在2月宣布,已经经历了多次迭代,将可训练模型的最大大小从超过1000亿增加到超过1万亿。

在较高的层次上,可以将参数视为AI从处理数据中学到的见解。这些见解使AI模型能够随着时间提高其准确性和速度。神经网络具有的参数越多,它可以处理的数据就越熟练,从而产生更高质量的结果。

DeepSpeed旨在解决的挑战是,开发人员只能为其神经网络配备AI培训基础结构可以处理的尽可能多的参数。换句话说,硬件限制是建立更大更好模型的障碍。DeepSpeed使AI培训过程的硬件效率更高,因此开发人员无需购买更多基础架构即可提高其构建的AI软件的复杂性。

微软表示,该工具可以使用Nvidia公司上一代V100图形卡中的100种来训练万亿参数语言模型。该公司声称,通常情况下,这项任务将需要100天的时间完成4,000张Nvidia当前一代A100图形卡的完成。那就是A100比V100快20倍。

微软表示,即使可用硬件减少到单个V100芯片,DeepSpeed仍然可以训练具有多达130亿个参数的语言模型。相比之下,世界上最大的语言模型具有约170亿个参数,最大的神经网络总体上 包含约1,750亿个参数。

如果这些结果在实际项目中得到证实,DeepSpeed可能会成为AI项目的主要福音。诸如OpenAI之类的研究小组正在努力扩大神经网络的规模,可以利用它来减少与其工作相关的硬件成本。反过来,初创公司和其他追求AI日常应用的公司则可以利用Microsoft的工具来构建更复杂的模型,这比有限的基础设施预算所无法承受的。

微软高管兰根·马朱德(Rangan Majumder)和王俊华(Junhua Wang)在博客中写道,DeepSpeed“使数十亿参数模型培训民主化,并为许多深度学习从业者探索更大更好的模型打开了窗口” 。

最新版本的DeepSpeed中的多项新技术使这些可扩展性的改进成为可能。一种是ZeRO卸载,它可以通过创造性地利用服务器中央处理单元中的内存来提高AI培训服务器可以处理的参数数量。另一种称为3D并行性的创新可以通过有效地增加硬件的方式在训练服务器之间分配工作。

微软公司的Majumder和Wang写道:“ 3D并行性适应了工作负载要求的不同需求,以支持具有超过一万亿个参数的超大型模型,同时实现了近乎完美的内存扩展和吞吐量扩展效率。” “此外,其提高的通信效率使用户可以在网络带宽有限的常规集群上以2-7倍的速度训练数十亿个参数模型。”

标签:MicrosoftAI
最新文章