请选择 进入手机版 | 继续访问电脑版
开启左侧

打造OpenAI GPT超算:微软云上生成式AI创新

[复制链接]
TMy_专属你的t 发表于 2024-3-13 23:27:11 | 显示全部楼层 |阅读模式 打印 上一主题 下一主题



这是微软Azure首席技术官Mark最近在一次斯坦福大学研讨会上的演讲内容。全面介绍了微软azure如何在云端企业级实现生成式AI模型(特别是OpenAI gpt)训练推理的优化和创新。很多内容应该都是首次公开披露。
Mark是微软全球企业级云平台的负责人,也是分布式系统、操作系统和网络安全领域的专家。他在卡内基梅隆大学获得了计算机科学博士学位,并与他人共同创立了Winternal Software,后来加入Microsoft。
在研讨会上,Mark深入讲解了Microsoft的AI架构,包括训练基础模型的超级计算机以及有效服务于预训练和微调模型的基础设施。他还探讨了人工智能研究趋势和人工智能机密方面的机会。
讲座的视频完整版:
Mark强调,微软并不仅仅是一个提供NVIDIA硬件或OpenAI人工智能模型的商店,而是与其他人工智能公司建立了合作伙伴关系,并为他们的模型提供一流的服务,为微软的客户以及他们在Azure上提供的服务。
此外,Mark还介绍了Project Forge,这是微软的资源管理器,用于跨GPU和其他加速器进行调度。Project Forge的目标是,微软能否在具有工作负载意识的情况下有效管理基础设施,以提高训练和推理的效率。首先,通过全球调度程序Project Forge,可以全球查看GPU容量,根据工作负载的限制有效地放置工作负载。其次,Project Forge专注于无服务器AI,允许用户访问虚拟GPU和虚拟集群,而不是特定类型的GPU。这种方法打破了传统的碎片化问题,提高了GPU的利用率。
此外,微软还提出了一种名为Splitwise的方法,将计算任务分解为提示服务器、处理服务器和生成服务器,以提高效率。另一个项目,Project Flywheel,通过将大提示分解为小块并与生成处理交织在一起,实现了可预测的吞吐量和线性规模。
微软还提供了一种名为LoRa的微调方法,它通过创建额外的权重(称为微调适配器)而不是触碰预训练的模型,来进行微调。这种方法减少了训练所需的GPU数量,降低了检查点的大小,并缩短了模型切换的时间。
最后,微软创建了一种名为多LoRa微调服务的服务,可以在同一GPU上加载数十到数百个适配器,从而在同一GPU上为数百个企业客户定制模型提供服务。延迟测试比较了预先训练的LoRa与数千个LoRa的延迟,发现无论是GPT-3.5的完全微调模型,还是在基准测试中随机测试的一千个模型,他们的延迟都是相同的。
介绍在人工智能科学领域进行研究,提出了一个问题:语言模型可以很小但仍然很强大吗?研究员提出了一个假设,即我们是否可以测试数据的质量对模型的影响?他们创建了一个非常小的模型,大小只有几百兆字节,但它可以生成连贯的儿童故事。
一个研究方向是可否通过关注非常高质量的面向推理的数据,让模型很好地推理。研究表明,这种方法是有效的。PHi项目使用了由GPT综合生成的高质量教科书数据。PHi2模型在与推理相关的人工智能的不同知名行业基准上表现优秀,甚至超过了一些大型模型。
正在探索的另一个研究方向是视觉模型是否也可以被缩小。COSMOS模型,它拥有60亿多的参数,能够通过高质量的数据,在小模型中得到很好的推理。
Mark还介绍了个人的人工智能研究,包括如何使用GitHub Copilot改变编程方式,以及一个专注于人工智能遗忘的项目,即让大型语言模型忘记一些东西。
最后提到了机密人工智能的重要性,因为未来的计算不仅仅是机密计算,而且机密人工智能是人工智能的未来。
==以下是讲座的天空之城书面版=
我们今天要介绍的是我们的演讲者Mark,他是Microsoft Azure的CTO和技术研究员。他是微软全球企业级云平台的负责人,是分布式系统、操作系统和网络安全领域广泛认可的专家。Mark在卡内基梅隆大学获得了计算机科学博士学位,后来与他人共同创立了Winternal Software,并于2006年加入Microsoft,当时该公司被Microsoft收购。他撰写了多本非小说类和小说类书籍,包括Microsoft Press、Windows、Internals丛书、Sysinternals工具故障排除,以及虚构的网络安全惊悚小说《零日》、《俄罗斯之马》和《Rogue Code》。
然而,在今天的研讨会中,我们将与Mark一起深入了解Microsoft的AI架构,包括训练基础模型的超级计算机以及有效服务于预训练和微调模型的基础设施。他还将探讨人工智能研究趋势和人工智能机密方面的机会。
zcZC4zXX4X8pm3Xl.jpg

Mark:
大家好,感谢您邀请我来斯坦福大学做演讲。几年前,我曾去过斯坦福一次,很高兴能回来并受邀来这里演讲。这是我第一次在斯坦福大学演讲。正如艾哈迈德所说,我在卡内基梅隆大学获得了计算机工程博士学位。斯坦福大学也是一所非常好的学校,所以来到这里真的很棒。
现在,我想今天早上要和大家讨论的是我们在Azure和整个Microsoft中使用人工智能所做的事情,更多的是我们在人工智能方面所做的技术基础,以及只是为您提供艾哈迈德提到的不同领域的重点内容。有点技术性,但不是太技术性,只是为了让您了解我们正在尝试突破极限的工作。我认为,我们需要明确的是,人工智能研究,尤其是纯粹的人工智能研究,与将产品投入生产是两个完全不同的概念。我们的客户主要是企业级客户。因此,正如艾哈迈德所提到的,Azure 是一个面向企业的平台。我们向企业销售服务,因此,我们的任务就是将科学应用于企业,包括企业级运营。这是我们需要牢记的重要事项。
正如许多人所知,试图将研究中的某些成果应用于工业生产和销售,往往并非易事。这也是在像微软这样的公司工作的乐趣所在。
VFt7KQk3cNNThN16.jpg

现在,为了概括整个情况,毫无疑问,人工智能在过去15年里确实经历了爆炸性的增长。这在很大程度上是由云计算的力量推动的,包括无处不在的GPU和云提供的按需计算。我们已经看到了人工智能模型能力的崛起。这只是一个图表,虽然已经有几年了,但你可以看到我们期望人类在许多不同领域的能力,多年来,人工智能一直是最先进的,但现在人工智能已经匹配或超越了它。如果你看不懂这个图表,手写识别、语音识别、图像识别、阅读,所有这些不同的领域都已经被人工智能所掌握。正如我所说,真正推动这一点的是无处不在的按需计算的兴起。
UmvEV5ENmNEuME2e.jpg

你可以在这里非常清楚地看到,多年来,随着模型大小的增长,功能也有了相应的提升。最近,你可以在右上角看到,尽管我们在上周看到了最新版本,但前沿模型仍然被认为是最先进的。OpenAI提供的GPT-4模型的大小尚未公开,但我们知道,它比这张幻灯片上的最小模型大很多数量级。这些模型早在2018年就出现了,就在几年前。OpenAI是一家与我们密切合作的公司。
许多人可能都知道,微软和OpenAI已经合作多年。这种合作关系的基础是我们提供的人工智能计算基础设施。当我们开始与OpenAI讨论时,他们的一个主要目标就是实现通用人工智能。他们认为,规模对于实现这一目标至关重要。他们需要一个基础设施提供商能够在他们需要的时候为他们提供所需的规模。我们致力于为他们提供这样的规模,我们首先为他们创建了一台定制的AI超级计算机来训练GPT-3。
这台超级计算机,我们以全面生产的方式交付给他们。我们通常会在这些超级计算机上线时分批交付它们,我们将它们交给OpenAI。完整的超级计算机已于2020年交付,当时我们估计,如果我们将该超级计算机的基准提交给超级计算机500强基准,那么我们将成为世界第五大超级计算机。我说的不仅仅是在公共云中,而是在世界任何地方。
就人工智能而言,2020年已经是很久以前的事了,而我们仍在继续构建下一代超级计算机。一个训练了GPT-3的训练,我们可以提供另一训练GPT-4的训练。我们正在构建一个用于训练下一版本GPT模型和其他大型模型的模型。
cawNNan8vZngnA8H.jpg

去年年底,我们在超级计算机的一小部分上进行了实际生产的top 500运行,我们仍在为下一代OpenAI模型构建超级计算机。这个是14,400个H100 GPU,这是NVIDIA最新一代的GPU。我们在全球最大的超级计算机中排名前三、第三。在全球任何地方的本地或公共云中,我想强调的是,我们正在构建的系统只是一小部分,我们仍在为其进行构建。现在,我得到了分享已完成系统规模的许可,虽然我能分享的信息并不多,但我可以告诉你,14,400个GPU只是这个更大系统的一小部分。我们已经开始构建和设计系统。值得一提的是,设计这些系统所需的不仅仅是拥有这些GPU的服务器,而是包括数据中心在内的整个系统,而且不仅仅是一个数据中心,而是多个数据中心。这就是这些超级计算机的规模。
BJ78fUZbZ8B723cn.jpg

另外,我想提到一个很棒的基准,它显示了基础设施在加速人工智能方面的进步。如果你从2023年3月开始查看,你会看到H100 MLPerf基准测试。这是另一个基准。BERT 3.5亿参数模型训练最快只需5.4分钟。截至去年11月,GPT 3的训练记录达到了1750亿个参数模型,明显更大。但你可以看到从三月下旬到去年年初的时间里,尽管我们在参数方面提高了几个数量级,但在总时间方面却下降或基本上只增加了一倍。我们在OpenAI超级计算机的一小部分上进行的运行,我们训练GPT 3只需四分钟。这是在1300 ND H100 V5虚拟机上进行的。我将在一分钟内向您展示该虚拟机的样子,但每个虚拟机都有八个GPU。这是本次训练中使用的1300个GPU的八倍。这是我们向OpenAI提供的虚拟化计算。
NhBo501shGIt00Oq.jpg

这些虚拟机都直接连接GPU。我们同时向MLPerf提交了NVIDIA的裸机运行,该运行在3.92分钟内完成。因此,我们只需为运行OpenAI的虚拟化基础设施的弹性和安全优势支付2%的性能开销。正如我所说,其秘诀在于系统设计。系统设计的一部分是定制后端,这确实是OpenAI感兴趣的首要原因。我们为这些GPU定制了后端,将它们连接在一起。这是InfiniBand网络,因此原始超级计算机上大约1.5微秒的延迟在它们之间建立了100个千兆位连接。这些最新的服务器之间有400GB连接,并且这些连接完全连接到OpenAI超级计算机中的所有服务器,甚至跨数据中心。
l9Pmm9QfflxxDPbd.jpg

这是对虚拟机的观察,因为我想在这里提出的另一个有趣的观点是OpenAI正在超级计算机上进行训练。OpenAI训练的内容与我们向像您这样的客户和企业客户提供的内容之间的唯一区别是InfiniBand后端网络的规模。就他们而言,这些网络跨越多个数据中心。就我们的公共集群而言,有几千台服务器,因为我们大多数客户没有像OpenAI这样的超级计算机需求。但除此之外,它是完全相同的虚拟机、完全相同的服务器、完全相同的GPU和完全相同的InfiniBand网络。
C7TL7AkG2G2tZL7K.jpg

这是其中的一张图片,因为我知道我们都喜欢看真实硬件的图片。以下是OpenAI超级计算机系统中一些机架背面的照片。您可以看到InfiniBand电缆,以及从后面引出的青色浅蓝色电缆。其中一个托盘被拉开,您可以看到托盘中放置了8个H100 GPU。
Jm1hX18JH83Zz8Z2.jpg

然而,我们的工作并不仅仅专注于NVIDIA硬件。我们也与AMD保持紧密的合作关系,我们在公共云中提供AMD MI300X GPU,并且我们正在开发自己的芯片。在去年秋末,我们宣布了我们正在开发的Maya100定制加速器。我们已经从如何运行AI的生产客户工作负载中汲取经验教训,并将这些知识构建到这些AI加速器中。
Maia100是一个由1050亿个5纳米部件组成的设备,是有史以来晶体管数量最多的部件之一。作为对比,H100大约有800亿个晶体管。现在,我想向您展示一个关于这个系统的小视频。
mpPRohyFOY5YN8Zn.jpg

这是我们的探针板,我们可以在其中探测部件上的连接,这是我们测试SoC的启动板。您可以看到,这看起来就像我大学时期炎热夏天的宿舍,拥有众多的风扇。虽然这看起来并不复杂,但当你开始启动并运行设备时,基本的硬件设计在实验室中看起来是真实的。现在生产的Maia系统看起来就像这样。
w149Bs6z944rRr50.jpg

这是一个机架,机架的一半是Maia加速器及其多台服务器,机架的另一半是我们所说的sidekick。这代表了云计算和液冷的未来。我们确定液体冷却是迄今为止冷却这些设备的最有效方法,特别是当您获得这些设备更高的TDP或热特性时。仅GPU或加速器就可以消耗数百瓦的功率,大量的热量需要消散。高效实现这一点并最大限度地减少数据中心占地面积的方法是采用液体冷却。我们还认为您实际上也可以节省电力,而且它确实节省了水。这是一个封闭的系统。我们可以将它与此处的sidekick一起放置在任何数据中心,这样我们就可以对任何数据中心进行液体冷却。
THpeyEPJoeRAcwp6.jpg

我们还在致力于设计公用水冷数据中心,从外部取水并将其引入来冷却这些服务器。这是Maia 100板的外观。我想强调的一点是,我们已经将这些连接器连接到这些加速器中,这些加速器可以带来电力、网络和水。如果我们打开其中一个并取下盖子,您会看到进入加速器顶部座位的进水口和出水口。这就是我们如何设计完全端到端的系统,包括它们如何连接到数据中心以及如何将水和其他服务引入加速器。
mzzB9RhmMe5RnH2G.jpg

然而,正如我提到的,我们的愿景不仅仅是将我们的客户或我们自己锁定在一组特定的加速器中。事实上,我们认为有很多不同的加速器会有用。我提到了AMD、NVIDIA和我们自己的加速器,可能还有其他的。我们的目标是尽可能地抽象,同时不牺牲效率和性能。
因此,我们一直在Triton上与OpenAI密切合作,这是一个用于创建内核并能够针对不同类型的加速器而不会牺牲性能的库。事实上,这就是OpenAI工程师编写自定义内核的方式。他们可以针对NVIDIA的CUDA,但他们也可以采用相同的内核,然后针对AMD的RockM。因此,我们坚信未来的发展方向,并且我们正专注于这个未来。从像ONNX Runtime这样的抽象硬件库,到我们与OpenAI合作的Triton内核设计,我们都在为此努力。我想通过一个快速的演示向您展示这一切是真实存在的。
yZfaU8eiuIs8Ru08.jpg

这是Visual Studio代码。我想知道,有多少人在使用Visual Studio Code?看来在场的很多人都在使用。我们可以创建自定义的Copilot连接。这是一个Maya SMI,它与NVIDIA SMI类似,可以显示我们实际上有四个加速器。然后,我将GitHub Copilot配置为指向这个Maya设备。
SFA6BVbVcTzppUh6.jpg

这是运行GPT-3的一个示例。此时,Copilot的状态为5 Turbo,您可以看到我正在对Copilot进行完成操作。在某个Python(实际上是一个大型完成)的正上方,您可以看到进入Maya加速器的流量。您可以看到那里有一个峰值,这是因为它正在处理该提示并生成响应。
od86546H4LZb8066.jpg

现在,我将向您介绍我们是如何对软件进行分层并在这些加速器之上进行资源管理的。我认为,很多人误以为我们只是从OpenAI获取这些模型,然后将它们放入我们的基础设施中,并为人们提供一个直接连接到它的端点。但实际上,情况并非如此。
从底层的基础设施,到客户的API以及客户用来访问这些模型的服务,我们都进行了大量的创新。这是Microsoft Copilot堆栈的横截面视图,其中大方框代表重要的子系统。所有这些都协同工作,以提供类似Microsoft Copilot的功能。
它从我们的硬件基础设施开始,然后有一个名为Project Forge的项目来管理这些服务器并在此之上提供工作负载资源管理,我稍后会详细介绍。然后,您可以看到有一个推理托管运行时,其中包含大量的遥测和硬件运行状况。
Gn6hv5QVpzspTqB1.jpg

接下来,您可以看到我们与OpenAI共同设计的堆栈。这就是模型所在的位置:模型副本、键值提示缓存、准入控制界面以及可让您直接访问放置在基础设施中某处的模型实例的API。当涉及到将模型放置在基础设施中时,我们有模型池来跟踪模型的不同版本。
我们在管理存储、网络和计算的不同服务之间提供了跨租户路由。然后我们提供了最重要的服务,例如为已进入Microsoft 365 Copilot并具有某些SLA的客户提供的API,以及对批量和在线服务的推理的不同类型的使用。
因此,要真正将这些东西投入生产,需要做很多工作。关于这个堆栈,我想强调一点,微软并不只是一个提供NVIDIA硬件或OpenAI人工智能模型的商店。我们与其他人工智能公司建立了合作伙伴关系,并为他们的模型提供一流的服务,以便为我们的客户以及他们在Azure上提供的服务提供支持。
例如,我们与Meta建立了合作伙伴关系,我们在Azure内提供他们的Llama系列模型作为托管服务。然后,有多少人看到了我们上周与Mistral的声明?法国公司Mistral推出了一款新的前沿车型,名为Mistral Large。目前,Azure是Mistral Large的独家提供商。OpenAI云不仅仅是一个云服务。现在,我们有一个名为Project Forge的资源管理器,它用于跨GPU和其他加速器进行调度。Project Forge实际上是由我的CTO办公室孵化出来的服务,并于去年初在Azure机器学习团队中投入生产。
b2qFzxbr51U1ohrB.jpg

Project Forge的目标是,我们能否在具有工作负载意识的情况下有效管理基础设施?在人工智能领域,我们需要了解训练工作的性质以及我们的模型是什么。因此,Project Forge从根本上将这些概念内置于训练和推理中。
有效管理基础设施涉及许多复杂性,例如模型推理,因为你有不同版本的模型。你必须在客户对特定GPU的请求之间保持粘性。你还必须管理容量池。
在训练方面,我们想要解决的问题之一是如何使训练使用GPU在Microsoft内部进行,以提高我们的客户的效率。我们使用一种称为全局调度程序的工具来实现这一目标,它不是按集群、数据中心或区域查看GPU容量,而是全球性地查看它。
k2fw2822GWFq249P.jpg

因此,Project Forge了解我们在全球所有地区拥有的所有GPU容量。这使得它能够根据其限制有效地放置工作负载,例如,如果工作负载必须在美国运行,它将在美国任何有可用容量的地方运行。如果工作负载必须在欧洲运行,它就会在欧洲运行。
Project Forge可以做出最密集地使用该容量的决策。它还专注于无服务器人工智能。我们希望人们不再认为我在服务器上有GPU,而是认为我可以使用人工智能能力。Project Forge甚至从特定类型的GPU中抽象出来,一直专注于无服务器AI。
这意味着我可以开始访问虚拟GPU和虚拟集群。我可以访问的GPU,我可以高优先级访问那些容量。这并不意味着我可以访问该特定区域中的这些特定GPU。但在限制范围内,我的集群可以访问该容量。当我不使用其他客户时,他们可以访问该容量。
i2TzFXXEHxXJIXko.jpg

这打破了我们今天在为人们提供集群或多个GPU时看到的碎片。他们在GPU上的位置并没有有效地使用它们。如果他们需要更多GPU,他们将无法获得它们,因为它们被分配给其他集群并且无法访问它们。Project Forge摆脱了这些界限。
去年,我们已经让所有内部人员入职Project Forge的训练工作量。我们在Project Forge中看到的,拥有这种全球视野,拥有这种优先系统和无服务器架构,我们已经能够将GPU利用率从50%提高到60%,甚至提高到70%到80%,甚至达到90%的范围。
我们正在幕后进行许多不同类型的优化和效率调整,以尝试尽可能接近100%。因为这些资源显然非常昂贵。但这已经带来了巨大的节省。上个季度,微软在资本支出上花费了100亿美元,其中很大一部分当然都花在了GPU上。我们希望确保即使是5%的效率提升也能转化为数亿美元。
xhxS97siHSqQX1k2.jpg

现在我们还关注的事情之一是如何更有效地服务模型。事实证明,我们几年前的预测有误,我们曾认为我们的大部分能力将用于训练。训练是一项艰巨的任务,我们预计这项任务会变得越来越大。然而,现实情况是,就我们的基础设施而言,我们现在处于推理和训练之间。我们预计,随着时间的推移,推理的权重实际上会超过训练。因此,我们希望确保我们能够真正有效地为模型提供服务。
qFOWDZaGJJdd91Ad.jpg

我们在Azure中有一些嵌入式研究团队,这些团队属于我密切关注的Azure核心小组。他们正在研究如何为这些模型提供提示。例如,模型可能会提示“番茄是一种水果”,然后通过模型进行前向传递,生成下一个标记。在这个过程的第一阶段,计算量非常大,你有很多Token进来,你需要对这些Token进行大量处理,然后建立一个键值缓存,这是一个内存密集型的过程。然后,你会进入生成阶段,这个阶段是连续的,计算量低,内存量高,因为你同时服务于许多不同的请求,每个请求都有自己的键值缓存。
GsZe1Ny0iHa6wywc.jpg

我们的团队提出了一个问题:如果我们把这些任务分开在同一台服务器、同一GPU上完成,会怎样?这个想法在一篇名为Splitwise的论文中得到了阐述,论文探讨了使用相分裂的高效生成LLM推理的方法。这个方法的基本思想是将计算机分为提示服务器、处理服务器和生成服务器,并在它们之间建立低延迟无限频带连接。我们的目标是,通过将即时处理和生成处理分别推向不同的批次,提高效率。论文还探讨了使用不同功率的GPU进行处理和生成,我们发现这样可以节省15%的电量。
PyycdND2d7Dq9q22.jpg

这个想法已经被产品化,并得到了OpenAI的认可,他们已经在他们的系统中部署了这个方法。我们现在正在将其纳入我们的Project Forge服务堆栈中。
pfORr2kwBv2mO4RM.jpg

另一方面,作为企业级服务,我们需要提供一致的系统行为,包括可用性和执行方式。企业不希望今天可以每秒提供10个提示,明天却只能每秒提供5个提示。他们在构建应用程序时需要对系统的工作方式有一定的了解,并相应地进行调整。
在LLM的服务中,我们发现有很多不同类型的个人资料。例如,内容创建是一个快速的过程,你给它几句话来表达你想要的内容,它可能会输出整个文档。另一方面,你也可能给它一个巨大的文档,它会吐出几句话来总结它。在同一GPU上调度这些不同类型的配置文件时,我们遇到了一些问题。例如,当一个大的提示在处理时,另一个大的提示可能会开始生成,这会减慢第一个提示的生成速度。一旦第二个提示完成处理,它的大量计算需求可能会干扰第一个提示的推理。
n5mewmVmDft464Eh.jpg

然而,一旦这两个提示都进入生成阶段,系统就可以恢复正常速度,因为有足够的计算和内存来满足这两个需求。对于那些希望确保其企业客户的系统性能的公司来说,这是一个令人恐惧的问题。因此,我们开始探索如何为他们提供一种方式来满足他们所需的规模,再次实现无服务器的目标。这并不是说他们想要H100,而是他们实际上想要的是每秒处理的Token数量,即吞吐量指标。然后,他们可以在我们的帮助下衡量自己的工作量,并支付他们所需的费用。因此,我们想出了一种解决方案,并于去年年底投入生产。
kp0kLVQRzk7QYMFA.jpg

这个解决方案被称为Project Flywheel。Flywheel的想法非常简单。你接受大量的提示,然后将它们分成块,然后将它们与生成处理交织在一起。所以在这里,我们得到了同样的大量提示。我们一次只处理其中的一部分,然后我们开始生成。现在,第二个大量的提示出现了,我们正在交错处理,并且该提示处理的块与第一个模型的生成重叠,我们没有看到任何性能退化。我们在每秒处理的Token上具有非常一致的性能,其中tokens包括每秒处理的提示Token。
因此,可预测的吞吐量、线性规模,这就是我们所说的预配置吞吐量单位。截至去年,我们为客户提供GPT-4等服务的能力的方式是使用预配置的吞吐量单位,他们实际上必须购买多台服务器,并在最短的时间内使用专用的GPU的时间。这是极其昂贵的。现在我们可以根据他们的Token吞吐量要求为他们提供分数PTU。
VAxL99pck7X559YL.jpg

让我在这里向您展示一个快速演示,您可以在顶部看到我们在没有Project Flywheel的情况下正在进行大量服务。您可以看到正在处理的Token数量的大小。颜色代表单独的推理请求,你可以看到其中一些是大块,一些是小块,这意味着它们的完成时间和处理时间非常不可预测。
现在在Project Flywheel的底部,您可以看到我们正在将事情分块。一切看起来都非常统一。提示处理和生成的大小大致相等,这意味着我们可以了解给定模型的服务器的容量,然后进行预测。
Jvx3gxGXrXnRbX7I.jpg

我在这里得到的是不同提示生成配置文件的三个示例,每个配置文件分配了不同数量的预配置吞吐量单位。这是中号,200个提示大小,1,000个Token生成。就像文档创建一样。现在我正在做的是将请求发送到其中每一个,您可以看到左上角每分钟提示Token,右侧每分钟生成的Token,底部消耗的PTU容量,您可以看到提示Token每分钟取决于工作负载情况。
QyQ58Q4gwYSXz3Qb.jpg

Dm1qUQ9sjwzQ192f.jpg

我有这三种不同的极端,其中一种处于中间。每分钟生成的Token,与您可以在那里看到的内容相同,但关键是这三个Token的每个Token的时间完全相同。因此,无论提示或生成量如何,我们都会根据每分钟的Token为每个客户提供保证的吞吐量。
rXwH1cX9t9T211Y5.jpg

这里你可以看到我们调高了一个客户的PTU等级,所以我们每分钟会给他们更多的Token,你可以立即看到跳跃的是每分钟的提示Token和每分钟生成的Token,因为在这个在这种情况下,客户向系统发出大量推理请求,但由于PTU级别太低而未得到服务。
因此,这对于企业客户来说是非常具有变革性的,因为现在他们可以更轻松地负担得起为他们的模型、他们自己的Copilot(例如GPT-4)提供服务的费用。
我们考虑效率的另一种方式是服务自定义模型,您会看到我们的许多客户想要做的就是构建微调模型。微调模型可能会根据自己的特定数据进行模型训练,或者训练为以某些方式响应,具体取决于他们正在开发的应用程序。这就是微调可以提供帮助的地方。
Bw5Nd5hy50U9AAT2.jpg

顺便说一句,我们官方给客户的建议是不要微调,使用RAG,先使用提示工程,然后再去RAG,然后才尝试微调,因为微调当然需要很多的专业知识、大量的时间和金钱。对于已经做出决定的客户,包括我们自己,我们需要对模型进行微调。直到大约一年半前,我们采用的是一种相对简单的方法。我们使用预训练的模型,创建一个小数据集来表示我们希望模型更好地理解的内容,然后进行更多的训练。最终,你得到的是一个与原始模型大小相同的新版本。例如,如果你微调GPT-3.5,也就是1750亿个参数,你的自定义版本的GPT-3.5也有1750亿个参数。微调这样大的模型需要一段时间,因为你必须在所有这些不同的GPU上进行训练才能支持这么大的模型。
Rq3PY26z8266qQdw.jpg

gxv4wp4Wd64zwwwm.jpg

因此,我们引入了一种叫做LoRa的技术。我这是在斯坦福大学发表演讲,很多人都听说过LoRa,因为现在每个人都在使用LoRa进行微调。这是来自微软研究院的技术。LoRa微调的工作方式是,你不去碰预训练的模型,而是创建一些额外的权重,也就是你的微调适配器。你对你的数据集进行训练,只更新那些适应的权重,然后你就得到了一个目标模型,只需添加这些自适应权重即可。
Pmpc8g5pPPsX37cF.jpg

如果你比较GPT-3的微调和LoRa的微调,你会发现,以简单的方式进行微调需要96个GPU,而使用LoRa只需要24个。在训练期间,简单方式的检查点为1TB,而LoRa方式的检查点为200MB。然后,切换模型只需要一分多钟的时间。当你提供许多不同的自定义模型时,这一点很重要,因为你需要能够在收到不同请求时在各个模型之间进行切换,而这只需要几秒钟。并且,没有额外的推理延迟,所以一切都很好,我们获得了更好的训练吞吐量。
K469ilQHClii0DUL.jpg

现在,我们要将其投入生产。我们如何将其投入生产呢?当我们看一下我们之前为模型提供服务的方式时,我们有一个GPU池,当客户A想要他们的自定义模型时,我们需要将他们的模型加载到这个GPU上。然后,当客户B进来时,我们需要换掉模型。模型很大,所以它们甚至可能不会占用整个GPU,所以我们不能将GPU用于其他用途。同时,我们还有转换成本。
RtcS5KGkGszK9QZS.jpg

因此,我们创建了一种称为多LoRa微调服务的东西,现在我们可以在同一GPU上加载数十到数百个适配器。因此,它能够使用多LoRa在同一GPU上为数百个企业客户定制模型提供服务。这就是我们在生产中加载它们的方式。
让我向你展示一个多LoRa推理的快速演示。这是传统的推理,我们只是对预先训练的模型进行推理。
wtGO1T1yDG4ft2IO.jpg

如果我们发送多个请求,会发生模型仍在加载中,我们实际上不会完成。在LoRa端,我们可以发送这些请求。我们已经在该GPU上创建了一千个LoRa,因此该模型有一千个自定义版本,现在我们将随机选择一个。
aOo3fK111n5463av.jpg

你可以看到我可以很快击中其中多个,并从每一个推论中获得成功,因为它们基本上都是有负载的。如果它们没有加载,那么在这种情况下,在它们之间切换需要几秒钟,甚至不到一秒钟。
fDgzRcU22UG192R9.jpg

现在,让我向你展示运行延迟测试。一个预先训练的LoRa与数千个LoRa相比,这对延迟有何影响?因此,我们只是在那里运行延迟运行,并且我们将绘制图表。您可以在左侧看到 GPT-3。在讨论完全微调模型的延迟时,我们发现其与在基准测试中随机测试的一千个模型相比,得到的延迟是相同的。
Rn5THwzxi2xM5Xto.jpg

我想再次强调,这并没有包含 Project Flywheel,这只是为了向您展示,使用 LoRa 基本上会给你一种错觉,让你以为你有 1000 个 GPU,尽管实际上它只是一个带有 LoRa 微调模型的 GPU。您可以在这里看到一个并发图,它向您展示这些请求(单个请求)的延迟在所有请求中都是一致的。您还可以在此处看到所有这些 GPT-3.5 Turbo模型,这就是我们的服务堆栈。
SodHpskmzUdMGphu.jpg

我刚才向大家展示的是我们的人工智能研究,通过几个例子,展示了我们的系统人工智能研究。但我们也在人工智能科学领域进行研究。去年年初,我们提出了一个问题:语言模型可以很小但仍然很强大吗?
Y00R6U9ul1G77E77.jpg

如果你回顾我之前的幻灯片,你会发现能力和模型大小之间的关系是非常直接的,呈指数关系。我们能否让一个非常小的机器像一个非常大的机器一样工作呢?这是我们的一个观察结果,你可以看到这是从一篇论文中得出的。
v677reljn0cSj766.jpg

这篇论文名为《Tiny Stories》,有多少人出于好奇而阅读过它呢?研究员提出了一个问题:我们可以测试一下数据的质量到底是什么的假设吗?在特定领域获得良好的推理能力很重要吗?现在,如果你想到 GPT-4,其中数千亿个参数,GPT-4 擅长的事情之一就是推理。它仍然被认为是最先进的。但它是巨大的,并不一定是因为它强大的推理能力,而是因为它有效地承载了几乎所有公众在网络上拥有的关于其权重的知识。这意味着你可以去问它,用梵文写一些东西,它可能知道怎么做。你可以去问它有关生物学的知识,它可能知道。所有这些都在它的重量中。这与推理无关,也许它对训练部分有所帮助。
我们的想法是,我们是否可以使用这些大型模型之一获取并创建合成数据,以创建一个非常小的模型,该模型仍然可以写出连贯的儿童故事,因此被称为“小故事”?答案是肯定的。他们创建了一个非常小的模型,大小只有几百兆字节。它可以生成三年级的儿童故事,而且非常连贯。你可以用“我想要三只熊,我想要森林等等”的提示来播种它,它就会产生一个很棒的故事。所以我们问,我们可以这样做来进行一般推理吗?因此我们决定开始研究物理学来关注这个问题。
Z8SSHuh8k584ZzZw.jpg

您可以在这里看到人类所做的事情和LLM所做的事情之间的比较。一个人只能读一个他们一生中拥有少量Token。他们只了解一些基本事实。而模型则读取数万亿个Token,尝试记住所有内容,并且它可以学习纯粹的信息,但学习推理很难。我们的假设是,只需关注非常高质量的面向推理的数据,看看是否能让模型很好地推理。
正如您可能想象的那样,这会带来很多好处。如果你看一下 Llama1 数据集,它基本上是让我们把厨房水槽扔到这个东西上,看看它是否能学到东西,有点像 GPT-4,把网络的厨房水槽扔到这个东西上,让我们看看会出现什么结果。在这种情况下,您可以看到数据集的质量非常好。普通的爬行中有各种各样的垃圾,有毒垃圾也在其中。质量非常低,其中很多也没有表现出很好的批判性思维。该模型正因此受到阻碍。
HxrO7xk6zQXh11sO.jpg

现在我们对 PHi 项目所做的工作是使用 GPT-5 和 4 教科书数据综合生成的。高质量的教科书数据是至关重要的。许多实时工程项目都试图获取多样化和丰富的例子,这些例子中嵌入了大量的推理。此外,我们还看到了几款新的家庭车型。
目前,我们正在讨论的是PHi2,这是去年发布的PHi系列的最新版本。如图所示,PHi是黄色的。它覆盖了与推理相关的人工智能的各种知名行业基准。你可以看到,Llama270B是深蓝色的条形,是图中的第三条。前三个是不同尺寸的Llama模型,分别是7、13和70。你可以看到,PHi正在与所有模型竞争,包括Llama70模型,尽管它只有2.7亿个参数。因此,在这些基准测试中,2.7B和70B的表现都达到了该水平或更高。我们目前正在开发PHi3。
所以,是的,小模型可以很小,语言模型也可以很小。但是,视觉模型也可以很小吗?这是另一个研究方向。这是COSMOS2, 1.6亿的多式联运模式。这是我与它的互动。我只是给它一张时代广场上Azure标志的DALL-E3合成图片,然后问它,这是什么?只需1.6亿个参数,它就能回答,一大群人正在走在时代广场上,上面有一个巨大的蓝色Microsoft Azure标志。当然,我们希望确保它能理解建筑物上显示的Microsoft Azure徽标的含义。
G3Erx9633D3OJSom.jpg

但是,当我给它另一张图片时,它能够识别出边界框,并告诉我这栋建筑是悉尼歌剧院。所以,这很明显,利用高质量的数据,我们可以在小模型中得到很好的推理。
IUT9Uqy52q8995y8.jpg

因此,大的语言模型可以很小。顺便说一句,这是你可以阅读的两篇论文,一篇是关于最新的PHi2模型,另一篇是关于COSMOS模型。我将提供这些幻灯片,如果你不想拍照,就不必拍照。
dZmo1057o1wxMADO.jpg

hI8TfI8T0250zQ0g.jpg

现在,我想分享一些我自己的人工智能研究。去年夏天,我休了一个假期,这是在微软工作10年后的一项福利。我有一段时间可以休息,但我也无法坐视不管。我做了一些旅行,拜访了家人,但后来我想,我应该亲自接触人工智能。因此,我开始与《Tiny Stories》论文的作者Ronan Elden合作开展一个项目,我稍后会向你们介绍这个项目。
但我想首先分享一下人工智能如何改变了我自己的编程方式。我一生中写过很多代码,我仍然在一些名为Sysinternals的工具上编写代码,你们中的一些人可能听说过。在这里,我学到了新的编程语言,如PyTorch和Python。我对它们有一些了解,但肯定不是专家。我要告诉你的是,我现在还不是专家,但我是GitHub Copilot的专家。我发现我不再想自己编码,我想让模型为我编码。这就是我很快就适应了有这个出色的助手的方式。即使只是几行代码,我也只需要输入评论,然后它就会从Copilot中生成。它并不总是正确的,所以我会坐下来反复思考多次,然后最终放弃、生气,然后自己做。我对此感到愤怒,这让我笑了。我正在做一些我无论如何都必须自己做的事情。可能通过观察它在做什么,我可以同时取得领先地位。但随后还有所有其他积蓄。因此,它已经向我展示了编程的发展方向。
sy7VrtTW24Rcp2su.jpg

这是试图让模型按照人类的指令做你想做的事情。这里有一个 GitHub Copilot 的示例,供大家参考。事实上,这是我们研究得出的。这并不完全是流程,但基本上我们采用了这个 ResNet-18 模型。我们希望看到所有批量归一化层的内部表示。
wTE5rNZB2NTz1t17.jpg

您可以看到我所做的只是在此处输入注释,返回张量列表。如果我必须用 PyTorch、Python 来写这个,我可能需要半个小时。我在那里一瞬间就做到了。我说,啊,你知道吗?我想把这件事形象化。
KYLwOXQFwS3Q4qO4.jpg

所以这里我只是打印长度。您可以看到自动补全功能正在发挥作用,基本上,这有点神奇。你没用过它。它知道你下一步想做什么。我在这里发表评论,将其可视化,然后按 Enter。我只是自动完成它的建议。
Y62rx7RVXM443UYM.jpg

有多少人曾与 Matplotlib 进行过斗争?所以我不跟它较劲。我只是让Copilot来解决这个问题。现在我们开始。再次强调这一点。这并不是那么简单,但您可以看到这是一个多么强大的推动者。
现在我们决定做一个专注于人工智能遗忘的项目。5分钟?好的。不过,玩得很开心。最后,让我谈谈这个忘却项目, 因为这对我来说很有趣。我们决定做的是,嘿, 我们可以采用一个大型语言模型并让它忘记一些东西吗?您可能希望忘记某些东西的原因有多种。这是您不希望模型使用的受版权保护的数据,受到 GDPR 或有毒数据的影响。
p0Xq2qiijX1XpjV1.jpg

我们怎样才能忘掉它呢?所以我们决定,让我们采取一些具有独特签名的东西,一些非常明显的东西,就像我们的第一步一样,这将是非常明显的。事实证明,所有这些模型深深地了解哈利波特故事。如果你说哈利·波特那年秋天回到了学校见到他的朋友罗恩和赫敏就结束了。就像每个大型语言模型一样很了解他们。所以我们想,如果我们能让它忘记哈利·波特怎么办?所以我们选择了 Llama 7b。
我们做了这样的训练,我不会花太多细节,你可以阅读一两点。但我们想出了这项技术, 同时使用了我们在书本上训练的 Llama 7b 的微调强化版本,所以它真的只想整天谈论哈利·波特。你可能会说,今天天气怎么样?他们会说,我不知道,但哈利认为天气晴朗。然后我们还想出了另一个叫做锚定术语的东西,这是我们使用 GPT-4 为我们生成的独特术语,通过说,嘿,GPT-4, 去阅读这篇文章并找出所有独特的术语,例如麻瓜和哈利和霍格沃茨。
它做到了。然后我们要做的就是切断这些词之间的关系。哈利不是巫师。哈利头上没有伤疤。然后我们还想为模型创建通用生成并微调模型,以便它想要生成哈利·波特特定提示的通用完成。
aHF009uNCbbSC10T.jpg

举个例子,哈利·波特是谁?左边是 Llama 7b。右边是未学过的版本,位于拥抱的脸上。哈利·波特是一位英国演员、作家和导演。他以戏剧作品而闻名,参演了多部作品, 包括《历史男孩》和《认真的重要性》。他还曾在电视剧《王冠》中饰演神秘博士,这显然完全是无稽之谈。而这叫什么?幻觉了吧?
bT9SrT5v58cSS9tt.jpg

C91C6i5Bces9s2wA.jpg

但您可以看到它在这里用非哈利波特文本完成了许多不同的提示。正如哈利回到班级看到他的好朋友一样,你也可以看到我所提到的,经过预先训练的罗恩和赫敏。莎拉和艾米丽已经坐在办公桌前。在基准测试中,他们的性能基本相同,没有退化。
yz7JUJ7VTKT5551C.jpg

一篇优秀的论文的标志是,其他人会写论文来讨论你的论文。让我们看看这个论文,这是我们的论文。上周,我看到了一条推文,提到了遗忘学习可能带来更安全的警报,但评估起来却很棘手。这里有八种评估技术。
CQ3VZ4u9fc1tc2zG.jpg

这篇论文主要是关于我们的论文《哈利·波特》的研究。他们对我们在遗忘过程中可以改进的事情有一些深刻的见解。因此,这项研究仍在进行中。
r8quv85a3KVRp1MK.jpg

eCwII7IjJw7BswSA.jpg

在我结束之前,我想谈一下机密人工智能。因为这不仅是未来的计算,而且机密人工智能是人工智能的未来。机密计算是你在使用数据时保护数据的地方,而不仅仅是在数据静止或传输时。
Mcwh9GywCcc8j3WG.jpg

如果你考虑一下我们去年秋天与NVIDIA合作推出的机密H100的AI环境,你可以保护模型的知识产权。你有一个非常昂贵的模型,你可以保护它的知识产权。你已经获得了你想要进行提示和推理或微调的数据。你可以保护这些数据,使任何人都看不到它,包括管理员、服务器、虚拟机管理程序。还有一个非常酷的场景是多方共享。
sSHh0vZrU0tLj7JR.jpg

那么,我就结束了。我想我们有一些时间来回答问题。我们有时间吗?好的,非常感谢。
=问答==
非常感谢马克,你的演讲既精彩又有趣。我非常喜欢所有的幻觉例子和学习如何遗忘的部分。这真的很令人着迷。你展示的所有模型,飞轮、Lora、多Lora,看到小型模型甚至可以超越或至少与大型模型同等性能,这一切都令人着迷。
在了解GPU和服务器如何构建以及如何构建堆栈时,我们的典型思维方式可能不适合思考这些系统的结构以及堆栈的实现方式。这很令人着迷。对于我们的观众,我们将配备浮动麦克风。因此,如果你对马克有疑问,请继续提出你的问题。
马克,你谈了很多关于保证吞吐量和整个调度过程的问题,那么关于这个调度过程是否可以提高这些系统的脱碳效率以及它们总体上如何使用能源,就有很多问题。这是可以讨论的吗?
是的。当我谈论我们用来提高系统效率的这些不同技术和架构时,它的效率旨在降低成本,但同时也降低了对环境的影响,这也是一个很好的好处。液体冷却、降低成本、降低环境影响等也是如此。
如果你考虑一下Multilore所做的事情,你会发现,我们需要部署、配置它们来服务相同数量的工作负载,因此节省的GPU数量可能是几个数量级。所以可以肯定的是,这直接影响碳。
当你考虑不同的GPU(无论是NVIDIA、AMD还是你自己的)时,这是否是你的策略的一部分?Maia,这是你们在构建堆栈时关注的事情吗?对环境影响的不同考虑?我问这个问题是因为斯坦福大学,如你所知,刚刚成立了新的可持续发展学院。我们一直致力于了解旧的和现代的人工智能系统对环境和社会的影响。
是的。微软实际上不仅拥有行业领先,而且拥有全球领先的承诺。我想,是为了我们在2018年做出的环境友好或环境承诺。那谈到了达到水中和,达到碳中和,然后实际去除碳。事实上,我们希望到2050年抵消微软自1975年成立以来直接和间接排放到环境中的所有碳,顺便说一句,明年是50周年纪念日。所以它就像一根绳子贯穿我们所做的一切。在我们的数据中心设计中,我们正在探索使用质子内存交换和氢燃料电池来替代发电机等技术。然而,目前这些技术的成本非常高,因为还没有人能够达到我们所需的规模。但我们相信,如果我们通过投资和推动行业采用这些绿色技术,我们就能实现这一目标,并提高可靠性。虽然最初的成本可能会较高,但这对环境的影响将是巨大的。
你好,我是伊曼纽尔,我在摩根大通工作。我有一个关于学习的问题。目前,我们正在使用不同的方法。我对从语言模型本身中提取和移除知识,然后将其放入外部数据库或图数据库,并将知识管理到图数据库或其他数据库中,仅让语言模型专注于语言措辞的方法感到好奇。在这种情况下,我们可以管理知识,而无需遍历参数。这种方法似乎更为简单。微软有类似的工作吗?
是的,我手下有一个专注于安全隐私的研究团队。他们最近发表的一篇论文或即将发表的论文之一是通过LLM系统跟踪数据流,因此基于代理的系统,如RAG,可以及时处理,将事情交给不同的代理,这样我们就可以确保数据按照模型可以访问的内容以及模型输出的接收者应该访问的内容进行适当分类。当谈到基于RAG的系统时,了解数据流绝对是关键。我们最关心的是这一点,但我们也关注下游和上游系统,我们如何训练这些LLM。即使在PHi的情况下,我们也需要创建越来越广泛的数据集,其中甚至包括一些公共数据。因此,你总是会面临风险,你可能无意添加到模型训练数据集中的数据。所以这就是忘记学习的重点,一旦它出现了,你如何摆脱它?但是,RAG是一个很好的方法来控制模型看到的数据。
根据您所说的关于学习或训练与推理之间的权衡,您认为未来三五年的趋势是什么?
就像我在四年前的演讲中提到的,我们微软认为训练与推理的比例将是80-20,大致就在这个范围内。然后我们看到的是下降到50-50。就像我说的,我个人相信它实际上会进一步走向推理与训练。仅仅因为Copilot、聊天机器人以及支持人工智能、支持LLM的系统的兴起才刚刚开始,这只会引发比我们今天已经有的越来越多的推论。所以我认为这种趋势不会很快放缓。
最近,Gemini发布了Gemini 1.5 Ultra,它拥有约百万个Token的上下文窗口。您认为云系统如何才能跟上日益增长的需求,以满足上下文限制窗口?谷歌刚刚发布了百万Token模型。您认为使用Microsoft的Azure系统进行OpenAI是否有可能达到类似的上下文窗口级别?当你现在谈论推理为50-50时,它对性能有何影响?
因此,如果上下文限制较高,那么模型处理它所需的时间会更长。因此,当涉及到我们围绕推理系统放置的基础设施时,我们将架构、Transformer架构视为基本上是一个黑匣子。因此,如果它使用稀疏注意力或块注意力或其他什么,对我们来说并不重要,或者分裂可能是唯一一种出现类似情况的地方。我举个例子。目前,最新的生成预训练模型(GPT)无法在单个服务器上安装。因此,我们不得不处理分布式大型语言模型(LLM)以为其提供服务。然而,我们并不关注如何处理这些大的上下文大小。值得一提的是,在处理这些大上下文大小时,许多优化意味着并非所有的注意力头都会关注所有的标记,因此,如果你天真地这样做,你的键值缓存会比较大。因此,它们并不随着上下文窗口的大小线性缩放。感谢您的倾听,我们现在向观众提问。
我是纳格什,我在视觉实验室工作。我有一个问题,关于忘记学习,除了语言模型之外,它是否能扩展到不同的数据模式?它是否也可以应用于图像数据、音乐或其他东西?另外,我还有一个问题,当可解释性是你所涵盖的主题之一时,你是如何选择你的研究重点的?
实际上,当我在考虑我想做什么时,我受到了Google举办的Kaggle竞赛的启发,该竞赛是NeurIPS的一部分,关于图像分类模型视觉类别的遗忘。因此,我的研究从罗南开始,我们实际上有一种我们认为比比赛排行榜上名列前茅的技术更好的技术。我们计划发表一篇论文,大约一个月后您可能会在档案中看到它。但已经有很多关于扩散模型的扩散遗忘的工作。有一件我们没有看到的事情,而这是我一直在关注的事情,我思考了很长一段时间,LLM和因为我提到的所有原因而忘记学习,为什么你可能想忘记学习。然而我们基本上找不到任何关于它的研究。所以我说让我们继续吧,因为这似乎是一个新领域,我们实际上可以在其中做一些前沿工作。
你好,非常感谢你来到这里。我是Rachel,是GSB的MBA1级学生。你在演讲中早些时候所说的一些话引起了我的注意,你说进行研究和实际产品化然后将其提供给企业之间有很大的区别。因此,当您考虑您的忘却研究时,您如何想象它会成为微软产品套件的一部分?它是否是一个像时间机器一样的功能,用户可以跳进去,说,哦,我不是故意告知模型该数据的,我想把它拉回来?您计划提供完全独立的服务还是独立的产品?
我们还没有一个明确的答案。事实上,我们还处于早期阶段,还没有忘记学习的情况。我们期望它成为的问题。人们仍在训练这些模型,他们并没有将它们放入这些大型模型所在的非常敏感的环境中。例如,我们以GDPR为例,您可能有一个小模型。它不是一个基于LLM的模型,而是一个小型模型,它是在一堆人脸图像上进行训练的,现在你已经有了GDPR,删除它们。我认为这种情况首先出现,这就是谷歌将其作为竞争目标的原因。对于LLM来说,我们还没有进入这样的领域:嘿,训练中有些数据是我们想要忘记的。我们正在忘却学习。我们需要擅长于此,因为没有这些数据的再训练成本非常昂贵。但这就是我坚信的,随着这些模型在更多场景中得到训练和部署,这种趋势开始显现。那么它用在哪里呢?显然,Ronin是PHi团队的一员,我们认为进入PHi并对PHi进行微调,甚至可能随着PHi的数据集变得更加多样化,我们可能有理由甚至想要在PHi上忘记,因为PHi模型尽管很小,仍然需要大量的计算资源来训练。
感谢您,马克。我是帕维尔,我在家具批发行业工作。我们目前的主要目标之一是利用人工智能来增强我们的后台运营,并最终实现一种监督模式,使得供应链中的常见任务可以由我们的管理员进行监督。因此,我想问的是,后台软件如Dynamics和ERP系统是否有任何新的进展?有什么可以推动这些进展的吗?
我们确实有供应链动态,但我不确定具体在哪里。
首先,我想说的是,微软的所有产品可能都已经有了一个Copilot。这是我认为去年最酷的事情之一,那就是GPT-4的出现。Satya和ChatGPT已经进入市场,Satya说人工智能是下一个重大事件,我们需要抓住并引领它。他告诉公司,大家要思考如何将人工智能应用到你们的产品中,现在已经足够投入并提供价值了。大家需要自己去弄清楚如何在内部使用人工智能。
那是去年3月的事,现在基本上是一年后的事了,微软已经在产品和服务中提供了大约50个Copilot,当然包括主要的Microsoft Copilot。我知道最先出现在后台的人员之一是销售人员,他是Dynamics的销售Copilot,负责查看员工记录并制作电子邮件、接收电子邮件并为您建议电子邮件回复。我猜供应链也有一个,但我一时不知道。
你好,我想问你一个问题,关于你刚才提到的关于忘却的事情,特别是对于使用医疗保健的LLM,您可以使用的标准是什么,或者有人可以知道LLM需要忘记数据库?
如果我直接理解这个问题,可能不是问这个问题的合适人选,因为我不在医疗保健领域。
我认为你需要忘记的东西,你可能想要忘记的东西与模型实际训练的内容是非常特定的,并且会有所不同。我们讨论了面向RAG的服务,您实际上并没有在任何这些数据上训练模型,您只是在线提供它,而我实际上将创建一个定制的医学LLM,在那里可能是敏感数据在我可能需要忘记的训练数据中。所以我认为这实际上取决于具体情况。我想我无法给你一个一刀切的答案。
谢谢,马克。我们将回答Slido的一个问题,它可能与之前有关管理训练与推理的答案有关。人们问你对芯片组的看法。您是否设想在服务器端进行更多预训练,然后为用户设计芯片组的情况在边缘进行推理?
是的,我们的笔记本电脑(包括Surface笔记本电脑和Apple MacBook)的边缘内部已经有了定制NPU、神经处理单元的设计。所以现在肯定有AMD之类的GPU和NVIDIA GPU。他们既可以服务又可以训练。
还有NVIDIA和AMD的GPU系列专门用于数据中心的推理,当然现在还有许多用于边缘的NPU。这似乎是趋势。
Slido还提出了一个问题,只是为了适应我们的虚拟与会者,这个问题也有点开放式,但您对量子计算机进入人工智能的发展有何看法?
是的,第一台量子计算机。让我简单介绍一下我对量子计算以及微软在其中的地位的看法。微软一直在投资量子技术自2000年代初以来的计算研究。实际上,我们在圣巴巴拉大学设立了一个名为Station Q的研究中心,专门进行量子研究。目前,我们在全球范围内设有大约八个实验室,致力于量子研究,包括与其他大学实验室的合作,共同为我们的量子计划做出贡献。
我们在量子计算的物理方面采取了一种与众不同的方法。有一种理论粒子叫做马约拉纳费米子,它看起来可能是可扩展量子计算机的关键。这种粒子非常小,变化迅速,且极其稳定。然而,尽管如此,我们并未证明这种粒子的存在,或者我们能否创造出这种粒子。因此,我们花费了多年的时间,坚信这些粒子可能真实存在,而且我们可以创造出它们。
几年前,我们在《自然》杂志上发表了一篇论文,证明我们实际上可以创造出这些粒子,它们是真实存在的。接下来的步骤就是利用这些粒子构建一个量子位,然后构建一个量子计算门。这是一个涉及物理学和材料科学的巨大挑战,但我们正在创建解决这些问题的系统。
我们认为,基于马约拉纳费米子的物理量子位是扩展真正的量子计算机以解决实际问题的唯一方法。大多数实际问题,例如创造新化学品、进行化学模拟、创造新药物,需要大约一百万个量子比特。我们估计,马约拉纳量子位晶圆上可以容纳一百万个量子位。现在,一百万个量子位的传输量子位或超导量子位,其他公司正在研究离子陷阱或光子量子位。为了达到一百万的规模,你现在所说的系统只有这个房间的一半大。没有人解决如何从一侧向另一侧获取信息以及如何同步这些事情。这是一个悬而未决的问题,我们正在努力解决这些问题。我们微软认为这些问题没有任何好的答案,所以在不久的将来,您将看到我们在量子计算方面的更多新闻。
感谢您的分享,这真的很鼓舞人心。我想我们还有时间再问两个问题,所以我们在这里问一个。感谢马克富有洞察力的演讲。我的名字是瓦西里,我是SCP 23,我想问你一个问题。
对许多公司来说,数据质量都是一个巨大的挑战,对我来说,我的创业公司是人工智能。因此,您可以让最好的模型对所有内容进行微调,但如果数据不好,则无法解决问题。所以你知道有很多而且这是一个复杂的问题,因此结构化数据和结构化数据你可以在那里拥有图像URL,就像数据中的视频一样。我想问微软是否正在做任何事情或对某种自动化进行搜索,或者您是否知道更有效的方法来构建准备数据,包括清理和所有必要的操作,以真正拥有良好的数据。
是的,这是一个好问题。我不认为当你有脏数据时,有什么灵丹妙药。事实上,使用LLM来清理脏数据,这显然是一项研究,我认为这可以消除大量的人力劳动。并且标记数据的好工具也包括人工标记和通过自动化系统标记,包括使用LLM,这实际上是我们所做的事情。昨天,FI团队的对齐研究负责人介绍了他们正在使用的工具,这些工具是与OpenAI共同开发的,用于为FI标记数据以创建干净的数据。他们有很多用于清理数据的管道,以确保低质量数据并消除数据冗余所有这些事情或任何进行大规模训练的人都必须担心。但目前我认为我们还没有处于交钥匙阶段。
让我们问最后一个问题。您好,我是亨利,一名本科生。我对模型的转变趋势产生了好奇,似乎我们正在转向更高效的计算方式,就像您提到的那些较小的模型。因为Azure在计算过程中起着重要的作用,
如果我们能够获得计算效率更高的架构,那么每个人都将从中受益。我们希望能够实现这一目标,这也是我们进行金融研究的原因。实际上,我们进行研究的原因有两个,一是我认为无论如何,我所设想的世界都会是一个你会拥有一些东西的世界。
大型前沿模型将被用于需要这类模型的场景,然后还有许多中型和小型模型,这些模型要么用于独立服务场景,要么用于增强大型模型。如果您看一下这些视觉模型,它们实际上是多个模型的组合。我设想一组模型和具有不同模型的不同代理可能与一个中心推理模型协作。事实是,如果没有小型模型的支持,您最终可能需要在效率低下且昂贵的任何地方携带这些大型模型,而且速度可能会很慢,可能需要多个服务器或GPU来运行,因此它们不适合某些环境。
我认为对空间状态的探索没有任何结束,针对特定场景的模型会越来越完善,根据他们的要求定制设计功率大小、延迟和功能。感谢您的关注,我想感谢大家,今天我们所拥有的时间一直很有趣。如果您有任何问题,请随时与我联系,我们将提供便利作为我们HAI合作伙伴关系的一部分,与Azure和Microsoft进行不同的研究合作。
回复

使用道具 举报

精彩评论1

wsgn_001 发表于 2024-3-14 00:26:41 | 显示全部楼层
语言模型可以很小但仍然很强大吗?
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

发布主题
阅读排行更多+

Powered by Discuz! X3.4© 2001-2013 Discuz Team.( 京ICP备17022993号-3 )