打造OpenAI GPT超算:微软云上生成式AI创
发布日期:2024-05-17 05:04:04 来源:乐鱼体育最新登录地址 作者:乐鱼体育官方网页版

  这是微软Azure首席技术官Mark最近在一次斯坦福大学研讨会上的演讲内容。全面介绍了微软azure如何在云端企业级实现生成式AI模型(特别是OpenAI gpt)训练推理的优化和创新。很多内容应该都是首次公开披露。

  Mark是微软全球企业级云平台的负责人,也是分布式系统、操作系统和网络安全领域的专家。他在卡内基梅隆大学获得了计算机科学博士学位,并与他人共同创立了Winternal Software,后来加入Microsoft。

  在研讨会上,Mark深入讲解了Microsoft的AI架构,包括训练基础模型的超级计算机以及有效服务于预训练和微调模型的基础设施。他还探讨了人工智能研究趋势和人工智能机密方面的机会。

  Mark强调,微软并不仅仅是一个提供NVIDIA硬件或OpenAI人工智能模型的商店,而是与其他人工智能公司建立了合作伙伴关系,并为他们的模型提供一流的服务,为微软的客户以及他们在Azure上提供的服务。

  此外,Mark还介绍了Project Forge,这是微软的资源管理器,用于跨GPU和其他加速器进行调度。Project Forge的目标是,微软能否在具有工作负载意识的情况下有效管理基础设施,以提高训练和推理的效率。首先,通过全球调度程序Project Forge,可以全球查看GPU容量,根据工作负载的限制有效地放置工作负载。其次,Project Forge专注于无服务器AI,允许用户访问虚拟GPU和虚拟集群,而不是特定类型的GPU。这种方法打破了传统的碎片化问题,提高了GPU的利用率。

  此外,微软还提出了一种名为Splitwise的方法,将计算任务分解为提示服务器、处理服务器和生成服务器,以提高效率。另一个项目,Project Flywheel,通过将大提示分解为小块并与生成处理交织在一起,实现了可预测的吞吐量和线性规模。

  微软还提供了一种名为LoRa的微调方法,它通过创建额外的权重(称为微调适配器)而不是触碰预训练的模型,来进行微调。这种方法减少了训练所需的GPU数量,降低了检查点的大小,并缩短了模型切换的时间。

  最后,微软创建了一种名为多LoRa微调服务的服务,可以在同一GPU上加载数十到数百个适配器,从而在同一GPU上为数百个企业客户定制模型提供服务。延迟测试比较了预先训练的LoRa与数千个LoRa的延迟,发现无论是GPT-3.5的完全微调模型,还是在基准测试中随机测试的一千个模型,他们的延迟都是相同的。

  介绍在人工智能科学领域进行研究,提出了一个问题:语言模型可以很小但仍然很强大吗?研究员提出了一个假设,即我们是否可以测试数据的质量对模型的影响?他们创建了一个非常小的模型,大小只有几百兆字节,但它可以生成连贯的儿童故事。

  一个研究方向是可否通过关注非常高质量的面向推理的数据,让模型很好地推理。研究表明,这种方法是有效的。PHi项目使用了由GPT综合生成的高质量教科书数据。PHi2模型在与推理相关的人工智能的不同知名行业基准上表现优秀,甚至超过了一些大型模型。

  正在探索的另一个研究方向是视觉模型是否也可以被缩小。COSMOS模型,它拥有60亿多的参数,能够通过高质量的数据,在小模型中得到很好的推理。

  Mark还介绍了个人的人工智能研究,包括如何使用GitHub Copilot改变编程方式,以及一个专注于人工智能遗忘的项目,即让大型语言模型忘记一些东西。

  最后提到了机密人工智能的重要性,因为未来的计算不仅仅是机密计算,而且机密人工智能是人工智能的未来。

  我们今天要介绍的是我们的演讲者Mark,他是Microsoft Azure的CTO和技术研究员。他是微软全球企业级云平台的负责人,是分布式系统、操作系统和网络安全领域广泛认可的专家。Mark在卡内基梅隆大学获得了计算机科学博士学位,后来与他人共同创立了Winternal Software,并于2006年加入Microsoft,当时该公司被Microsoft收购。他撰写了多本非小说类和小说类书籍,包括Microsoft Press、Windows、Internals丛书、Sysinternals工具故障排除,以及虚构的网络安全惊悚小说《零日》、《俄罗斯之马》和《Rogue Code》。

  然而,在今天的研讨会中,我们将与Mark一起深入了解Microsoft的AI架构,包括训练基础模型的超级计算机以及有效服务于预训练和微调模型的基础设施。他还将探讨人工智能研究趋势和人工智能机密方面的机会。

  大家好,感谢您邀请我来斯坦福大学做演讲。几年前,我曾去过斯坦福一次,很高兴能回来并受邀来这里演讲。这是我第一次在斯坦福大学演讲。正如艾哈迈德所说,我在卡内基梅隆大学获得了计算机工程博士学位。斯坦福大学也是一所非常好的学校,所以来到这里真的很棒。

  现在,我想今天早上要和大家讨论的是我们在Azure和整个Microsoft中使用人工智能所做的事情,更多的是我们在人工智能方面所做的技术基础,以及只是为您提供艾哈迈德提到的不同领域的重点内容。有点技术性,但不是太技术性,只是为了让您了解我们正在尝试突破极限的工作。我认为,我们需要明确的是,人工智能研究,尤其是纯粹的人工智能研究,与将产品投入生产是两个完全不同的概念。我们的客户主要是企业级客户。因此,正如艾哈迈德所提到的,Azure 是一个面向企业的平台。我们向企业销售服务,因此,我们的任务就是将科学应用于企业,包括企业级运营。这是我们需要牢记的重要事项。

  正如许多人所知,试图将研究中的某些成果应用于工业生产和销售,往往并非易事。这也是在像微软这样的公司工作的乐趣所在。

  现在,为了概括整个情况,毫无疑问,人工智能在过去15年里确实经历了爆炸性的增长。这在很大程度上是由云计算的力量推动的,包括无处不在的GPU和云提供的按需计算。我们已经看到了人工智能模型能力的崛起。这只是一个图表,虽然已经有几年了,但你可以看到我们期望人类在许多不同领域的能力,多年来,人工智能一直是最先进的,但现在人工智能已经匹配或超越了它。如果你看不懂这个图表,手写识别、语音识别、图像识别、阅读,所有这些不同的领域都已经被人工智能所掌握。正如我所说,真正推动这一点的是无处不在的按需计算的兴起。

  你可以在这里非常清楚地看到,多年来,随着模型大小的增长,功能也有了相应的提升。最近,你可以在右上角看到,尽管我们在上周看到了最新版本,但前沿模型仍然被认为是最先进的。OpenAI提供的GPT-4模型的大小尚未公开,但我们知道,它比这张幻灯片上的最小模型大很多数量级。这些模型早在2018年就出现了,就在几年前。OpenAI是一家与我们密切合作的公司。

  许多人可能都知道,微软和OpenAI已经合作多年。这种合作关系的基础是我们提供的人工智能计算基础设施。当我们开始与OpenAI讨论时,他们的一个主要目标就是实现通用人工智能。他们认为,规模对于实现这一目标至关重要。他们需要一个基础设施提供商能够在他们需要的时候为他们提供所需的规模。我们致力于为他们提供这样的规模,我们首先为他们创建了一台定制的AI超级计算机来训练GPT-3。

  这台超级计算机,我们以全面生产的方式交付给他们。我们通常会在这些超级计算机上线时分批交付它们,我们将它们交给OpenAI。完整的超级计算机已于2020年交付,当时我们估计,如果我们将该超级计算机的基准提交给超级计算机500强基准,那么我们将成为世界第五大超级计算机。我说的不仅仅是在公共云中,而是在世界任何地方。

  就人工智能而言,2020年已经是很久以前的事了,而我们仍在继续构建下一代超级计算机。一个训练了GPT-3的训练,我们可以提供另一训练GPT-4的训练。我们正在构建一个用于训练下一版本GPT模型和其他大型模型的模型。

  去年年底,我们在超级计算机的一小部分上进行了实际生产的top 500运行,我们仍在为下一代OpenAI模型构建超级计算机。这个是14,400个H100 GPU,这是NVIDIA最新一代的GPU。我们在全球最大的超级计算机中排名前三、第三。在全球任何地方的本地或公共云中,我想强调的是,我们正在构建的系统只是一小部分,我们仍在为其进行构建。现在,我得到了分享已完成系统规模的许可,虽然我能分享的信息并不多,但我可以告诉你,14,400个GPU只是这个更大系统的一小部分。我们已经开始构建和设计系统。值得一提的是,设计这些系统所需的不仅仅是拥有这些GPU的服务器,而是包括数据中心在内的整个系统,而且不仅仅是一个数据中心,而是多个数据中心。这就是这些超级计算机的规模。

  另外,我想提到一个很棒的基准,它显示了基础设施在加速人工智能方面的进步。如果你从2023年3月开始查看,你会看到H100 MLPerf基准测试。这是另一个基准。BERT 3.5亿参数模型训练最快只需5.4分钟。截至去年11月,GPT 3的训练记录达到了1750亿个参数模型,明显更大。但你可以看到从三月下旬到去年年初的时间里,尽管我们在参数方面提高了几个数量级,但在总时间方面却下降或基本上只增加了一倍。我们在OpenAI超级计算机的一小部分上进行的运行,我们训练GPT 3只需四分钟。这是在1300 ND H100 V5虚拟机上进行的。我将在一分钟内向您展示该虚拟机的样。

上一篇:火锅家具批发 下一篇:共同富裕中国行丨专题片:多“产”