NVIDIA Blackwell在MLPerf Inference v5.0中实现性能飞跃

MLPerf Inference v5.0是一个长期运行的基准测试套件，旨在测量各种不同模型和使用场景下的推理吞吐量。自2019年首次推出以来，MLPerf Inference不断更新，增加新模型和场景，确保其作为测量AI计算平台推理性能的有效工具。：一个拥有4050亿参数的密集LLM。对于服务器场景，该基准测试设定了首个token生成时间(TTFT)为6秒，每个输出token的时间(TPOT)为

扫地的小何尚

902人浏览 · 2025-04-03 08:52:43

扫地的小何尚 · 2025-04-03 08:52:43 发布

NVIDIA Blackwell在MLPerf Inference v5.0中实现性能飞跃

1. 引言

大型语言模型(LLM)的推理计算需求正在迅速增长，这主要由模型规模的不断扩大、实时延迟要求以及最近兴起的AI推理应用共同推动。与此同时，随着AI应用的普及，AI工厂能够在保持良好用户体验的前提下服务尽可能多的用户，这对于最大化其产生的价值至关重要。要在最新模型上实现高推理吞吐量和低推理延迟，需要在整个技术栈上追求卓越——从硅芯片、网络系统到软件的全方位优化。

MLPerf Inference v5.0是一个长期运行的基准测试套件的最新版本，用于测量不同模型和使用场景下的推理吞吐量。自2019年首次推出以来，MLPerf Inference不断更新，增加新模型和场景，确保其作为测量AI计算平台推理性能的有效工具。

在这篇博客中，我们将深入了解NVIDIA最新的Blackwell架构在MLPerf Inference v5.0中的卓越表现，以及支持这些性能突破的全栈技术创新。

2. MLPerf Inference v5.0基准测试概述

MLPerf Inference v5.0是一个长期运行的基准测试套件，旨在测量各种不同模型和使用场景下的推理吞吐量。自2019年首次推出以来，MLPerf Inference不断更新，增加新模型和场景，确保其作为测量AI计算平台推理性能的有效工具。

本轮测试新增了三个基准测试：

Llama 3.1 405B：一个拥有4050亿参数的密集LLM。对于服务器场景，该基准测试设定了首个token生成时间(TTFT)为6秒，每个输出token的时间(TPOT)为175毫秒的延迟要求。
Llama 2 70B Interactive：一个拥有700亿参数的密集LLM。这个工作负载基于MLPerf Inference v4.0中首次引入的相同Llama 2 70B模型，但具有更严格的延迟约束：TTFT为450毫秒，TPOT为40毫秒（每用户每秒25个token）。
关系图注意力网络(R-GAT)：一个图神经网络(GNN)基准测试。GNN在广泛的领域中应用，包括社交网络分析、药物发现、欺诈检测和分子化学等。

这些新基准测试加入了许多继续保留的基准测试，涵盖了多样化的模型和使用场景：ResNet-50、RetinaNet、3D U-Net、DLRMv2、GPT-J、Stable Diffusion XL、Llama 2 70B和Mixtral 8x7B。

NVIDIA在数据中心类别的每个基准测试中都提交了结果，在所有测试中都展现了出色的性能，包括新增的Llama 3.1 405B、Llama 2 70B Interactive和GNN测试的新性能结果。在本轮测试中，NVIDIA还提交了许多基于Blackwell架构的结果，同时使用了NVIDIA GB200 NVL72和NVIDIA DGX B200，相比前代NVIDIA Hopper架构实现了显著的性能提升。Hopper架构在推出三年后，在软件增强的推动下，仍然在所有测试中表现出色，这些软件增强继续提高该GPU系列的性能。

3. NVIDIA Blackwell架构简介

NVIDIA Blackwell架构于2024年NVIDIA GTC大会上首次亮相，目前已全面投产，可从主要云服务提供商和众多服务器制造商处获得。Blackwell架构融合了多项技术创新——包括第二代Transformer引擎、第五代NVLink、FP4和FP6精度等——这些创新使其在训练和推理方面都能实现显著更高的性能。

在这里插入图片描述

Blackwell平台提供多种不同的系统形态，以满足各种数据中心部署需求。NVIDIA提交的结果使用了GB200 NVL72和DGX B200两种系统。GB200 NVL72是一个机架级系统，配备36个Grace CPU和72个Blackwell GPU，所有组件通过NVLink和NVSwitch完全互联。而DGX B200则集成了8个通过NVLink和NVSwitch连接的Blackwell GPU。

此外，在本轮测试中，Blackwell在Llama 3.1 405B、Llama 2 70B Interactive、Llama 2 70B和Mixtral 8x7B基准测试上的提交利用了第二代Transformer引擎与FP4 Tensor核心、NVIDIA TensorRT-LLM软件（用于高效模型执行）以及TensorRT模型优化器（用于FP4量化）。这些技术的组合使得Blackwell能够使用FP4精度——相比FP8，FP4在Blackwell上提供两倍的峰值吞吐量——同时满足基准测试的准确性要求。

4. Blackwell在MLPerf中的卓越性能

在Llama 3.1 405B基准测试中，GB200 NVL72相比八GPU的NVIDIA H200 Tensor Core系统，每GPU性能提升高达3.4倍。

在这里插入图片描述

图1. GB200 NVL72在Llama 3.1 405B基准测试中每GPU性能最高，在405B基准测试的离线模式下比H200快2.8倍，在服务器模式下快3.4倍

在系统级别，GB200 NVL72通过结合更高的每GPU性能以及系统中9倍多的GPU数量（所有GPU通过单一NVLink域与NVLink和NVLink Switch连接），性能提升高达30倍。

在这里插入图片描述

图2. GB200 NVL72在MLPerf Inference v5.0 Llama 3.1 405B基准测试中吞吐量提升高达30倍

此外，NVIDIA在GB200 NVL72上运行了MLPerf Inference v4.1的Llama 2 70B基准测试，达到了未经验证的869,203 tokens/second的结果。

在Llama 2 70B Interactive基准测试中，八GPU的B200系统相比使用八个H200 GPU的NVIDIA提交结果，吞吐量提高了3.1倍。

在这里插入图片描述

图3. Blackwell在Llama 2 70B交互式基准测试中比Hopper提供3.1倍更高的吞吐量

B200在Llama 2 70B、Mixtral 8x7B和Stable Diffusion XL上也实现了显著的性能提升：

基准测试	8x Blackwell GPU 服务器 \| 离线	8x H200 GPU 服务器 \| 离线	Blackwell性能提升服务器 \| 离线
Llama 2 70B Tokens/sec	98,443 \| 98,858	33,072 \| 34,988	3x \| 2.8x
Mixtral 8x7B Tokens/sec	126,845 \| 128,148	61,802 \| 62,630	2.1x \| 2.1x
Stable Diffusion XL Samples/sec \| Queries/sec	28.44 \| 30.38	18.30 \| 18.99	1.6x \| 1.6x

表1. B200相比H200在MLPerf Inference v5.0 Llama 2 70B、Mixtral 8x7B和Stable Diffusion XL上的性能提升

5. Hopper架构的持续优化

Hopper平台于2022年3月首次推出，在MLPerf Inference v5.0的每个基准测试中继续展现出色的推理性能，包括新增的Llama 3.1 405B和Llama 2 70B Interactive基准测试。

随着云服务提供商和企业寻求最大化其加速基础设施投资的使用寿命，平台支持新AI模型和用例的能力变得至关重要。同时，AI工厂的推理吞吐量直接影响其推理吞吐能力——通过在相同基础设施上使用新软件提高特定模型的吞吐量，可以降低token生成成本并提高AI收入生成潜力。

在Llama 2 70B基准测试中，NVIDIA H100 Tensor Core GPU的吞吐量在过去一年中通过软件优化提高了高达1.5倍。这些优化包括GEMM和注意力核心优化、高级核心融合、分块预填充，以及TensorRT-LLM中的流水线并行改进，这些都在提高H100上的Llama 2 70B吞吐量方面发挥了重要作用。

Hopper架构具有NVLink Switch，允许每个GPU以全带宽与任何其他GPU通信，无论系统中有多少GPU。这为开发人员提供了灵活性，可以选择最佳并行映射，以在给定延迟约束下最大化吞吐量。NVLink Switch通信可以在细粒度级别与GEMM计算重叠，帮助提高H200 NVL8上的Llama 3.1 405B吞吐量。

这些持续优化的结果是，Hopper在MLPerf的最新和最具挑战性的工作负载上实现了出色的性能，包括Llama 3.1 405B和Llama 2 70B Interactive。

6. 全栈技术创新

Blackwell在MLPerf Inference v5.0中的卓越性能背后是一系列全栈技术创新，这些创新共同作用，实现了前所未有的推理效率。

第二代Transformer引擎与FP4 Tensor核心

Blackwell架构引入了第二代Transformer引擎，它支持FP4精度，这使得Blackwell相比使用FP8的情况下能够提供两倍的峰值吞吐量。在MLPerf Inference v5.0的Llama 3.1 405B、Llama 2 70B Interactive、Llama 2 70B和Mixtral 8x7B基准测试中，Blackwell利用FP4精度实现了显著的性能提升，同时满足了基准测试的准确性要求。

NVIDIA TensorRT-LLM软件

NVIDIA TensorRT-LLM是一个专为高效执行大型语言模型设计的软件库。它提供了一系列优化技术，包括核心融合、内存优化和并行处理策略，使模型能够在NVIDIA GPU上以最高效率运行。在MLPerf Inference v5.0中，TensorRT-LLM在Blackwell上的应用显著提高了LLM的推理性能。

TensorRT模型优化器

TensorRT模型优化器是一个用于模型量化的工具，它能够将模型从更高精度（如FP16或FP8）量化为更低精度（如FP4），同时保持模型的准确性。在MLPerf Inference v5.0中，TensorRT模型优化器用于FP4量化，使Blackwell能够充分利用其FP4 Tensor核心的计算能力，同时满足基准测试的准确性要求。

系统级创新

除了芯片和软件层面的创新外，NVIDIA还在系统级别进行了优化。GB200 NVL72系统将36个Grace CPU和72个Blackwell GPU通过NVLink和NVSwitch完全互联，形成一个单一的NVLink域。这种设计使得系统中的所有GPU都能以全带宽相互通信，无论它们在系统中的物理位置如何，从而实现了更高效的并行计算和数据传输。

这些全栈技术创新的组合使得Blackwell能够在MLPerf Inference v5.0中展现出色的性能，特别是在处理最具挑战性的LLM工作负载时。

7. 总结与展望

NVIDIA Blackwell架构在MLPerf Inference v5.0中展现的卓越性能标志着AI推理领域的一个重要里程碑。通过结合硬件创新（如第二代Transformer引擎、第五代NVLink和FP4精度）与软件优化（如TensorRT-LLM和TensorRT模型优化器），Blackwell实现了前所未有的推理效率，特别是在处理最具挑战性的大型语言模型时。

在Llama 3.1 405B基准测试中，GB200 NVL72系统相比前代H200实现了每GPU高达3.4倍的性能提升，系统级性能提升高达30倍。在Llama 2 70B Interactive基准测试中，B200系统比H200系统提供了3.1倍的吞吐量提升。这些性能提升不仅仅是数字上的改进，它们对实际AI应用具有深远的影响。

对于AI工厂而言，更高的推理吞吐量意味着能够以更低的成本服务更多用户，同时保持良好的用户体验。这直接转化为更高的AI收入生成潜力和更好的投资回报。对于需要实时响应的应用，如对话式AI和实时决策系统，Blackwell的低延迟特性使得更复杂的AI模型能够在严格的时间约束下运行，从而扩展了AI的应用范围。

同时，值得注意的是，Hopper架构在推出三年后，通过持续的软件优化，仍然在MLPerf Inference v5.0的所有基准测试中表现出色。这表明NVIDIA不仅致力于推出新一代硬件，还致力于通过软件创新延长现有平台的使用寿命，为客户提供更好的投资保护。

随着AI模型继续发展，推理需求也将继续增长。Blackwell架构的推出和在MLPerf Inference v5.0中的卓越表现，展示了NVIDIA在AI计算领域的领导地位，以及其通过全栈创新解决AI推理挑战的能力。未来，我们可以期待NVIDIA继续推动AI计算的边界，使更复杂、更强大的AI模型能够高效地部署到实际应用中，为各行各业带来更多价值。

天启AI社区

GitCode 天启AI是一款由 GitCode 团队打造的智能助手，基于先进的LLM（大语言模型）与多智能体 Agent 技术构建，致力于为用户提供高效、智能、多模态的创作与开发支持。它不仅支持自然语言对话，还具备处理文件、生成 PPT、撰写分析报告、开发 Web 应用等多项能力，真正做到“一句话，让 Al帮你完成复杂任务”。

更多推荐

【感知机】感知机(perceptron)学习算法例题及详解

天启AI社区

AI云原生：数智化时代AI Agent加速落地的技术基石与实践指南（THS）

天启AI社区

【AI论文】设计实验室：通过迭代检测与修正来设计幻灯片

天启AI社区

所有评论(0)

查看更多评论

扫地的小何尚

@kunhe0512

已为社区贡献22条内容

基准测试	8x Blackwell GPU 服务器 \| 离线	8x H200 GPU 服务器 \| 离线	Blackwell性能提升服务器 \| 离线
Llama 2 70B Tokens/sec	98,443 \| 98,858	33,072 \| 34,988	3x \| 2.8x
Mixtral 8x7B Tokens/sec	126,845 \| 128,148	61,802 \| 62,630	2.1x \| 2.1x
Stable Diffusion XL Samples/sec \| Queries/sec	28.44 \| 30.38	18.30 \| 18.99	1.6x \| 1.6x