报价
HOME
报价
正文内容
nand 错误 苹果迎接AI浪潮,酝酿为iPhone改用QLC NAND
发布时间 : 2024-11-24
作者 : 小编
访问数量 : 23
扫码分享至微信

苹果迎接AI浪潮,酝酿为iPhone改用QLC NAND

IT之家 7 月 25 日消息,集邦咨询于 7 月 22 日发布市场研报,透露苹果公司正酝酿使用 QLC NAND 闪存,

最早 2026 年用于 iPhone 产品中,让其存储上限达到 2TB。

QLC 和 TLC

TLC 的全称是 Triple Level Cell(三层单元) ,进一步增加存储密度,每个存储单元存储三位信息。

TLC NAND 的成本甚至低于 MLC NAND,使其成为消费电子产品和主流 SSD 的有吸引力选择。

QLC 的全称是 Quad-level cells(四层单元) ,每个单元可储存 4bit 数据,跟 TLC 相比,QLC 的储存密度提高了 33%。

QLC NAND 通常用于入门级消费者固态硬盘和大容量存储应用中,QLC NAND 的耐久度最低,通常 P / E Cycle(Program Erase Cycle)在 100 到 1000 之间。

制造商实施先进的错误校正机制、预留配置(OP)和 Wear leveling 以维持可靠性。

虽然 QLC NAND 可能不适合写入密集型工作负载,但它为日常使用提供了充足的存储容量,使固态硬碟在更广泛的用户范围内触手可及。

早有曝料苹果正推进 QLC NAND

最早曝料信息称苹果计划在 iPhone 14 系列上采用 QLC NAND,IT之家今年 1 月报道,苹果可能会在 iPhone 16 Pro 系列上采用 QLC NAND。

集邦咨询预估认为苹果公司正在加速推进 QLC NAND 换代,从而将内置存储上限提高到 2TB。

不过需要注意的是,虽然 QLC 的密度比 TLC 高,但速度却比后者慢;而且单个单元中存在更多的单元,它们的耐用性较差,这意味着它们能处理的写入周期比 TLC 少。

迎接大语言模型

苹果公司还在探索如何使用 NAND 闪存,而不是内存来存储大型语言模型(LLMs),从而能够在本地运行更多 AI 任务,因此过渡到 QLC NAND 可能有助于改善 Apple Intelligence 的表现。

LLM 进度是否正在放缓?前沿模型扩展挑战

原文:https://www.semianalysis.com/p/100000-h100-clusters-power-network

有一个阵营认为,自 GPT-4 发布以来,人工智能能力就陷入了停滞。这通常是正确的,但这只是因为没有人能够大规模增加专用于单个模型的计算量。已发布的每个模型大致为 GPT-4 级别(训练计算量约为 2e25 FLOP)。这是因为专用于这些模型的训练计算也大致处于相同的水平。以Google的Gemini Ultra、Nvidia Nemotron 340B和Meta LLAMA 3 405B为例,与GPT-4相比,专用的FLOPS数量级相似甚至更高,但由于采用了较差的架构,导致这些型号无法解锁新的能力。

资料来源:SemiAnalysis 估计

虽然 OpenAI 获得了更多的计算能力,但他们主要致力于为 GPT-4 Turbo 和 GPT-4o 等推理模型带来更小、训练过度、更便宜的模型。 OpenAI 承认他们最近才开始训练下一层模型。人工智能的下一步显然是训练具有大量视频、图像、音频和文本的数万亿参数多模态转换器。目前还没有人完成这项任务,但争夺第一名的竞赛已经展开了一系列活动。

包括但不限于 OpenAI/Microsoft、xAI 和 Meta 在内的多个大型 AI 实验室都在竞相构建拥有超过 100,000 个 GPU 的 GPU 集群。这些单独的训练集群仅服务器资本支出就超过 40 亿美元,但它们也受到数据中心容量和功率缺乏的严重限制,因为 GPU 通常需要共置以实现高速芯片到芯片网络。一个 100,000 个 GPU 集群将需要超过 150MW 的数据中心容量,一年消耗 1.59 太瓦时,按 0.078 美元/千瓦时的标准费率计算,成本为 1.239 亿美元。

Source: SemiAnalysis, US EIA

今天我们将深入研究大型训练人工智能集群及其周围的基础设施。构建这些集群比仅仅花钱解决问题要复杂得多。由于各种组件(尤其是网络)的故障率很高,因此实现高利用率更加困难。我们还将介绍这些系统的电源挑战、可靠性、检查点、网络拓扑选项、并行方案、机架布局和总物料清单。一年前,我们报道了 Nvidia 的 InfiniBand 问题,导致一些公司选择 Spectrum-X 以太网而不是 InfiniBand。我们还将弥补 Spectrum-X 的主要缺陷,该产品具有与 Broadcom 的 Tomahawk 5 配合使用的超大规模处理器。

为了了解 100,000 个 GPU 集群可以提供多少计算量,OpenAI 在大约 20,000 个 A100 上进行 90 到 100 天的 GPT-4 训练 BF16 FLOPS 约为 2.15e25 FLOP(2150 万 ExaFLOP)。该集群只有 6.28 BF16 ExaFLOP/秒峰值吞吐量。在 100k H100 集群上,这个数字将飙升至 198/99 FP8/FP16 ExaFLOP/秒。与 20k A100 集群相比,峰值理论 AI 训练 FLOP 增加了 31.5 倍。

Source: Nvidia, SemiAnalysis

在 H100 上,AI 实验室在万亿参数训练运行中实现了高达 35% 的 FP8 模型 FLOP 利用率 (MFU) 和 40% 的 FP16 MFU。回顾一下,MFU 是在考虑开销和各种瓶颈(例如功率限制、通信不稳定、重新计算、落后者和低效内核)后,衡量有效吞吐量和峰值潜在 FLOPS 利用率的指标。 100,000 个 H100 集群使用 FP8 训练 GPT-4 只需要四天时间。在 100k H100 集群训练运行 100 天时,您可以实现约 6e26(6 亿 ExaFLOP)的有效 FP8 模型 FLOP。请注意,硬件可靠性差会显着降低 MFU。

电源挑战

100k H100 集群所需的关键 IT 功率约为 150MW。虽然 GPU 本身的功耗仅为 700W,但在每台 H100 服务器中,CPU、网络接口卡 (NIC)、电源单元 (PSU) 的功耗又占每个 GPU 约 575W。除了H100服务器之外,AI集群还需要存储服务器、网络交换机、CPU节点、光收发器和许多其他项目的集合,这些项目加在一起约占IT电力的10%。从大约150MW的功率来看,最大的国家实验室超级计算El Capitan只需要30MW的关键IT功率。与工业界相比,政府超级计算机显得苍白无力。

一项主要的电力挑战是,目前没有任何一个数据中心建筑具备新部署约 150MW 的能力。当人们提到 100k GPU 集群时,通常指的是单个园区,而不是建筑物。由于缺乏其他选择,对电力的需求是如此迫切,X.AI 甚至将田纳西州孟菲斯市的一家旧工厂改造成数据中心。

这些集群通过光收发器联网,其成本与覆盖范围之间的关系是浮动的。距离更远的“单模”DR 和 FR 收发器可以可靠地传输约 500 米至约 2 公里的信号,但成本是“多模”SR 和 AOC 收发器的 2.5 倍,后者仅支持约 50 米的传输距离。此外,范围超过 2 公里的园区级“相干”800G 收发器也存在,尽管价格高出 10 倍以上。

H100 的小型集群通常仅通过一两层交换机,仅使用多模式收发器将每个 400G 的 GPU 连接到其他每个 GPU。对于大型 GPU 集群,必须添加更多层的交换,并且光学器件变得非常昂贵。此类集群的网络拓扑将根据首选供应商、当前和未来的工作负载以及资本支出而存在很大差异。

每个建筑物通常包含一个或多个计算单元,通过更便宜的铜缆或多模收发器连接。然后,他们将使用更远距离的收发器来在计算“岛”之间互连。下图显示了 4 个计算岛,岛内带宽较高,但岛外带宽较低。在单一地点交付 155MW 是一项挑战,但我们正在跟踪超过 15 个微软、Meta、谷歌、亚马逊、字节跳动、X.AI、甲骨文等数据中心的建设,这些数据中心将为人工智能服务器和网络提供足够的空间。

不同的客户根据数据传输基础设施、成本、可维护性、功率、当前、未来工作负载等多种不同因素选择不同的网络拓扑。因此,一些客户选择基于 Broadcom Tomahawk 5 的交换机,另一些客户坚持使用 Infiniband,而另一些客户则选择基于 Infiniband 的交换机。选择 NVIDIA Spectrum-X。我们将在下面深入探讨原因。

并行性复习

为了了解网络设计、拓扑、可靠性问题和检查点策略,我们将首先快速回顾一下万亿参数训练中使用的 3 种不同类型的并行性 - 数据并行性、张量并行性和管道并行性。我们在这里对并行性进行了全面的解释,包括专家并行性。

数据并行是最简单的并行形式,其中每个 GPU 保存模型权重的完整副本,并且每个 GPU(等级)接收不同的数据子集。这种类型的并行性具有最低级别的通信,因为只需在每个 GPU 之间对梯度进行求和(全部归约)。不幸的是,只有每个 GPU 有足够的内存来存储整个模型权重、激活、优化器状态时,数据并行才能发挥作用。对于像 GPT-4 这样的 1.8 万亿参数模型,仅模型权重和优化器状态就可能需要多达 10.8 TB 的内存用于训练。

Source: ColossalAI

为了克服这些内存限制,使用了张量并行性。在张量并行中,每一层的工作和模型权重分布在多个 GPU 上,通常分布在隐藏维度上。中间工作通过自注意力、前馈网络和每层的层标准化多次跨设备进行全归约交换。这需要高带宽,尤其需要非常低的延迟。实际上,域中的每个 GPU 在每一层上都与其他每个 GPU 一起工作,就像有一个巨大的 GPU 一样。张量并行性通过张量并行性等级的数量减少了每个 GPU 使用的总内存。例如,目前 NVLink 通常使用 8 个张量并行级别,因此这会将每个 GPU 的使用内存减少 8 个。

Source: Accelerating Pytorch Training

另一种克服每个 GPU 没有足够内存来适应模型权重和优化器状态的挑战的技术是使用管道并行性。通过管道并行,每个 GPU 仅具有层的子集,并且仅对该层进行计算,并将输出传递给下一个 GPU。该技术减少了管道并行级别数量所需的内存量。管道并行对通信量要求较高,但不如张量并行那么重。

Source: ColossalAI

为了最大化模型浮点运算利用率(MFU),公司通常将所有三种形式的并行性结合起来形成 3D 并行性。然后,他们将张量并行化应用于 H100 服务器内的 GPU,然后在同一岛内的节点之间使用管道并行化。由于数据并行通信量最低,岛间组网速度较慢,因此岛与岛之间采用数据并行。

Source: Optimus-CC

像 FSDP 这样的整个技术在小型 GPU 世界尺寸下对于非常大的模型来说很常见,但它不起作用。它实际上与管道并行性不兼容。

网络设计注意事项

网络在设计时考虑了并行方案。如果每个 GPU 在胖树拓扑中以最大带宽连接到每个其他 GPU,则成本将非常高,因为需要 4 层交换。由于网络的每一层都需要光学器件,因此光学器件的成本将会飙升。

因此,没有人为大型 GPU 集群部署全胖树架构。相反,他们依赖于创建具有完整胖树架构以及这些岛之间较小带宽的计算岛。有多种方法可以做到这一点,但大多数公司都选择“超额订阅”网络顶层。例如,Meta 的最新一代 GPU 集群架构最多可达 32,000 个。总共有 8 个岛,它们之间具有全宽带宽,然后是顶部的另一层交换,其超额订阅比例为 7:1。岛屿之间的网络速度比岛内的网络速度慢 7 倍。

Source: Meta

GPU 部署具有多个网络、前端、后端和扩展 (NVLink)。在某些情况下,您将在每个方案上运行不同的并行方案。 NVLink 网络可能是唯一一种速度足以满足张量并行带宽要求的网络。您的后端通常可以轻松处理大多数其他类型的并行性,但如果存在超额订阅,则通常只能处理数据并行性。

此外,有些人甚至没有顶层带宽超额认购的岛屿。相反,他们从后端网络转移到前端网络,以进行岛对岛通信。

混合 InfiniBand 和前端以太网结构

一家大公司通过前端以太网跨多个 InfiniBand 岛进行培训。这是因为前端网络的成本要便宜得多,并且可以利用建筑物和区域路由之间的现有数据中心园区网络。

Source: SemiAnalysis

不幸的是,随着 MoE 等稀疏技术导致模型大小增长得更快,前端网络需要处理的通信量也会增长。这种权衡必须仔细优化,否则您最终将拥有两个成本相同的网络,因为前端网络带宽最终会变得如此之大,以至于可能与后端网络带宽相匹配。

应该指出的是,Google 专门使用前端网络来进行多 TPU pod 训练运行。他们被称为 ICI 的“计算结构”最多只能扩展到 8960 个芯片,并使用昂贵的 800G 光学器件和光路交换机连接每个 64 个 TPU 水冷机架。因此,谷歌必须通过使 TPU 前端网络比大多数 GPU 前端网络更强大来进行补偿。

Source: Google at MLSys24

当在训练期间使用前端网络时,必须在岛之间完成网络拓扑感知的全局全归约。首先,每个 Pod 或 Island 将在 Pod InfiniBand 或 ICI 网络内执行本地归约分散,这将使每个 GPU/TPU 具有梯度分段的总和。接下来,将使用前端以太网网络执行每个主机级别之间的跨 pod all-reduce,然后最后每个 pod 将执行 pod 级别的 all-gather。

前端网络还负责加载数据。随着我们转向多模态图像和视频训练数据,前端网络需求将呈指数级增长。在这种情况下,前端网络带宽将在加载大型视频文件和进行所有缩减之间进行斗争。此外,你的落后问题会增加,就好像存在不规则的存储网络流量一样,它会导致你的整个 all-reduce 变慢并且无法进行预测建模。

另一种选择是采用 7:1 超额订阅的 4 层 InfiniBand 网络,具有 4 个 Pod,每个 Pod 具有 24,576 个 H100,具有非阻塞 3 层系统。与使用前端网络相比,这为未来的带宽增加提供了更大的灵活性,因为与在每个建筑物中进行完整的前端网络 NIC 升级相比,将更多光纤收发器从建筑物 A 中的交换机添加到建筑物 B 中的另一个交换机要容易得多。集群单机箱从100G升级到200G等

Source: SemiAnalysis

这会创建更稳定的网络模式,因为您的前端网络可以仅专注于加载数据和检查点,而后端网络可以仅专注于 GPU 到 GPU 的通信。这也有助于解决掉队者问题。但不幸的是,由于需要所有额外的交换机和收发器,4 层 Infiniband 网络非常昂贵。

导轨优化与机架中部

为了提高可维护性并增加铜缆网络(< 3 米)和多模网络(< 50 米)的使用,一些客户选择放弃 NVIDIA 推荐的导轨优化设计,而不是选择进行机架中间设计。

Source: Nvidia

轨道优化是一种让每个 H100 服务器连接到 8 个不同的叶交换机(而不是全部连接到同一个机架交换机中间)的技术,这样每个 GPU 就可以通过 1 个交换机跃点与更远的 GPU 通信。这使得现实世界中所有人的集体表现得以提高。多对多集体通信在专家混合 (MoE) 专家并行中大量使用。

Source: Crusoe

导轨优化设计的缺点是,您必须连接到不同距离的不同叶交换机,而不是连接到紧邻服务器中所有 8 个 GPU 的机架交换机中间。当交换机可以放置在同一机架中时,可以使用无源直连电缆 (DAC) 和有源电缆 (AEC),但在交换机不一定位于同一机架中的导轨优化设计中,必须使用光学器件。而且,Leaf到Spine的距离可能大于50米的距离,迫使必须使用单模光模块。

通过使用非导轨优化设计,您可以使用廉价的直连铜缆替换将 GPU 连接到叶交换机的 98,304 个光收发器,从而使 GPU 结构的 25-33% 是铜缆。从下面的机架图中可以看出,每个 GPU 到叶交换机的连接不再是先到电缆桥架,然后再将 9 个机架横向连接到专用导轨优化的叶交换机机架,叶交换机现在位于机架的中间,以便每个 GPU 使用 DAC 铜缆。

Non-rail optimized middle of rack, Source: SemiAnalysis

与光学电缆相比,DAC 铜电缆运行温度更低、功耗更低,而且价格便宜得多。由于 DAC 电缆的运行温度较低、功耗更低且更可靠,因此可以减少抖动(网络链路间歇性中断)和故障,而这是所有使用光学器件的高速互连的主要问题。使用 DAC 铜缆时,Quantum-2 IB 主干交换机的功耗为 747 瓦。使用多模光收发器时,功耗最高可达 1,500 瓦。

Rail optimized end of row, Source: SemiAnalysis

此外,对于数据中心技术人员来说,轨道优化设计的初始布线非常耗时,因为每个链路的末端相距长达 50 米,并且不在同一机架上。与中间机架设计相比,在中间机架设计中,叶交换机与连接到叶交换机的所有 GPU 位于同一机架中。在机架设计的中间,您甚至可以在集成工厂测试计算节点到叶交换机的链路,因为它们都位于同一机架内。

Rail optimized end of row water cooled, Source: SemiAnalysis

可靠性和恢复能力

由于当前前沿训练技术的同步性质,可靠性是这些巨型集群最重要的操作问题之一。最常见的可靠性问题是 GPU HBM ECC 错误、GPU 驱动程序卡住、光收发器故障、NIC 过热等。节点不断宕机或吐出错误。

为了保持故障恢复的平均时间较短并持续训练,数据中心必须在现场保留热备用节点和冷备用组件。当发生故障时,最好不要停止整个训练运行,而是换入已启动的工作备用节点并继续训练。这些服务器的大部分停机时间只是简单地重新通电/重新启动节点并修复出现的任何问题。

不过,简单的重启并不能解决所有问题,在许多情况下,它需要数据中心技术人员进行物理诊断和更换设备。在最好的情况下,数据中心技术人员需要几个小时才能修复损坏的 GPU 服务器,但在许多情况下,可能需要几天时间才能将损坏的节点重新投入训练运行。损坏的节点和备用热节点是不积极为模型做出贡献的 GPU,尽管理论上可以提供 FLOPS。

在训练模型时,需要频繁地将模型检查点到 CPU 内存或 NAND SSD,以防发生 HBM ECC 等错误。发生错误时,您必须从较慢的内存层重新加载模型和优化器的权重并重新启动训练。容错训练技术(例如 Oobleck)可用于提供用户级应用程序驱动的方法来处理 GPU 和网络故障。

不幸的是,频繁的检查点和容错训练技术会损害系统的整体 MFU。集群需要不断暂停以将其当前权重保存到持久内存或CPU内存中。此外,当您从检查点重新加载时,通常每 100 次迭代才保存一次。这意味着您最多只能损失 99 步有用的工作。在 100k 集群上,如果每次迭代花费 2 秒,则您会因迭代 99 处的故障而损失最多 229 个 GPU 天的工作量。

另一种故障恢复方法是让备用节点通过后端结构从其他 GPU 进行 RDMA 复制。由于后端 GPU 结构约为 400Gbps,并且每个 GPU 有 80GB HBM 内存,因此复制权重大约需要 1.6 秒。使用这种方法,最多只会损失 1 步(因为更多 GPU HBM 将拥有最新的权重副本),因此只需 2.3 GPU 天的计算时间 + 另外 1.85 GPU 天的 RDMA 复制权重来自其他 GPU HBM 内存。

大多数领先的人工智能实验室已经实现了这一点,但许多较小的公司仍然坚持使用笨重、缓慢、低效的技术,因为简单性而从检查点重新启动所有故障。通过内存重建实现故障恢复可以为大型训练运行的 MFU 增加多个百分点。

Source: Meta

最常见的问题之一是 Infiniband/RoCE 链路故障。即使每个 NIC 到叶交换机链路的平均无故障时间为 5 年,由于收发器数量较多,在全新的工作集群上第一次作业故障也只需要 26.28 分钟。如果不通过内存重建进行故障恢复,由于光学故障,在 100,000 个 GPU 集群中重新启动训练运行所花费的时间将比推进模型前进所花费的时间还要多。

Source: SemiAnalysis

由于每个 GPU 直接连接到 ConnectX-7 NIC(通过 PCIe 交换机),因此网络架构级别没有容错能力,因此必须在用户训练代码处处理故障,直接增加了代码库的复杂性。这是 NVIDIA 和 AMD 当前 GPU 网络结构面临的主要挑战之一,即使其中一个 NIC 发生故障,该 GPU 也没有其他路径与其他 GPU 进行通信。由于当前LLMs在节点内使用张量并行的方式,即使一个NIC、一个收发器或一个GPU出现故障,整个服务器也会被视为宕机。

为了使网络可重新配置并且节点不那么脆弱,我们正在做大量的工作。这项工作至关重要,因为现状意味着整个 GB200 NVL72 将因 1 个 GPU 故障或 1 个光学故障而停机。价值数百万美元的 72 GPU 机架发生故障比价值数十万美元的 8 GPU 服务器更具灾难性。

Nvidia 已经注意到了这个重大问题,并添加了专门的可靠性、可用性和可服务性引擎(RAS)。我们相信 RAS 引擎会分析芯片级数据,例如温度、恢复的 ECC 重试次数、时钟速度、电压,以预测芯片何时可能发生故障并向数据中心技术人员发出警报。这将使他们能够进行主动维护,例如使用更高的风扇速度配置文件来保持可靠性,使服务器停止服务以在稍后的维护时段进行进一步的物理检查。此外,在开始训练工作之前,每个芯片的 RAS 引擎将执行全面的自检,例如使用已知结果运行矩阵乘法来检测静默数据损坏 (SDC)。

Cedar-7

Microsoft/Openai 等一些客户正在进行的另一项成本优化是在每台服务器上使用 Cedar Fever-7 网络模块,而不是使用 8 个 PCIe 外形的 ConnectX-7 网卡。使用 Cedar Fever 模块的主要好处之一是,它允许仅使用 4 个 OSFP 笼,而不是 8 个 OSFP 笼,从而允许在计算节点端(而不仅仅是交换机端)使用双端口 2x400G 收发器。这将连接到叶子交换机的收发器数量从每个 H100 节点的 8 个收发器减少到 4 个收发器。将 GPU 连接到叶交换机的计算节点端收发器总数从 98,304 个减少到 49,152 个。

Source: Nvidia

由于 GPU 到叶交换机的链路被减半,这也有助于缩短首次作业失败的估计时间。我们估计每个双端口 2x400G 链路的平均故障时间为 4 年(而单端口 400G 链路为 5 年),这将使首次作业故障的估计时间达到 42.05 分钟,这比没有 Cedar-7 模块的 26.28 分钟。

Source: ServeTheHome

Spectrum-X NVIDIA

目前正在部署一个 10 万个 H100 集群,该集群将在今年年底前使用 NVIDIA Spectrum-X 以太网投入运行。

去年,我们介绍了 Spectrum-X 在大型网络中相对于 InfiniBand 的各种优势。即使除了性能和可靠性优势之外,Spectrum-X还具有巨大的成本优势。 Spectrum-X以太网是每台SN5600交换机有128个400G端口,而InfiniBand NDR Quantum-2交换机只有64个400G端口。请注意,Broadcom 的 Tomahawk 5 交换机 ASIC 还支持 128 个 400G 端口,这使当前一代 InfiniBand 处于很大的劣势。

完全互连的 100k 集群可以是 3 层,而不是 4 层。采用 4 层而不是 3 层意味着需要多 1.33 倍的收发器。由于 Quantum-2 交换机的基数较低,100k 集群上完全互连的 GPU 的最大数量限制为 65,536 个 H100。称为 Quantum-X800 的下一代 InfiniBand 交换机通过拥有 144 个 800G 端口解决了这个问题,不过从数字“144”可以看出,这是专为与 NVL72 和 NVL36 系统一起使用而设计的,预计不会在B200 或 B100 集群。尽管不必使用 Spectrum-X 进行 4 层可以节省成本,但不幸的是,您仍然需要从 Nvidia LinkX 产品线购买高价收发器,因为其他收发器可能无法工作或无法通过 Nvidia 验证。

与其他供应商相比,Spectrum-X 的主要优势在于,Spectrum-X 受到 NCCL 和 Jensen 等 NVIDIA 库的一流支持,与 Tomahawk 相比,您将成为其新产品线的首批客户之一5 芯片,您需要大量的内部工程工作来使用 NCCL 优化您的网络,以实现最大吞吐量。

Source: SemiAnalysis

对于 GPU 结构使用以太网而不是 InfiniBand 的一个不幸的缺点是,以太网目前不支持 SHARP 网络缩减。网络内缩减是通过让网络交换机运行这些计算来对每个 GPU 进行求和来实现的。 SHARP 的理论网络带宽增加了 2 倍,因为它将每个 GPU 必须执行的发送和写入次数减少了 2 倍。

Spectrum-X 的另一个缺点是,对于第一代 400G Spectrum-X,Nvidia 使用 Bluefield3 而不是 ConnectX-7 作为创可贴解决方案。对于下一代,我们希望 ConnectX-8 能够与 800G Spectrum-X 完美配合。对于超大规模量,Bluefield-3 和 ConnectX-7 卡之间的价格差约为 300 美元 ASP,另一个缺点是该卡比 ConnectX-7 多使用 50 瓦。因此,每个节点需要 400W 的额外功率,从而降低了整个训练服务器的“每皮焦耳智能”。您放置 Spectrum X 的数据中心现在需要额外 5MW 才能部署 100,000 个 GPU,而部署具有完全相同网络架构的 Broadcom Tomahawk 5。

Broadcom Tomahawk 5

为了避免支付巨额 Nvidia 税,许多客户正在部署基于 Broadcom Tomahawk 5 的交换机。每个基于 Tomahawk 5 的交换机都具有与 Spectrum-X SN5600 交换机相同的端口数量(128 400G 端口),并且如果您的公司拥有优秀的网络工程师,则可以实现类似的性能。此外,您可以从世界上任何供应商处购买任何通用收发器和铜缆,并进行混合搭配。

大多数客户直接与 ODM 合作,例如使用基于 Broadcom 的交换机 ASIC 的 Celestica 交换机,以及与旭创科技和新易盛等收发器公司合作。根据交换机成本和通用收发器成本,Tomahawk 5 比 Nvidia InfiniBand 便宜得多,也比 Nvidia Spectrum-X 便宜。

不幸的是,您需要有足够的工程能力来修补和优化 Tomahawk 5 的 NCCL 通信集合。开箱即用的 NCCL 通信集合仅针对 Nvidia Spectrum-X 和 Nvidia InfiniBand 进行了优化。好消息是,如果您有 40 亿美元用于 100k 集群,那么您就有足够的工程能力来修补 NCCL 并编写优化。当然,软件很难,Nvidia 始终处于最前沿,但通常我们希望每个超大规模厂商都能进行这些优化并放弃 InfiniBand。

现在,我们将讨论 4 种不同 100k GPU 集群网络设计的物料清单、与它们相关的交换机和收发器成本(显示不同网络设计的优势),以及针对减少光学进行优化的 GPU 集群的物理布局规划。

相关问答

mistake 和error在语言学上的区别?

mistaken.错误,误会,过失,通常用在日常生活沟通上。例如:Imadeastupidmistake.errorThegovernmenthassaiditwas...

...lunchnanddinner这句话是我自己写的有什么语法 错误 吗】作业帮

[最佳回答]正确的是:It'saquicksnackforworkerswhodon'thaveenoughtimetoeatlunchanddinner.首先将me...

.mistake[mis& #712;teik] n . 错误 ,过失,失策Regardlessofhowof...

[最佳回答]wrong是形容词.也可用做动词,意思为冤枉某人.mistake是名词啦.

***anditis***连读这里 and 和it是轻度吞音d还是ditis_作业帮

[最佳回答]此处连读,and以"n"与后连读,it的"t"浊化成"d",连读音标:ænnɪdɪz

【美语的连读andexpertsconfirmedandexpertsconfirmed这句话...

[回答]美语很少连读,所以虚词词尾后面的辅音一般会若读;所以实际读音成了an/expertsconfirmed注意:如果是英式读音的话,d和experts要连读你很细心,有空来...

process error是什么意思?

processerror过程错误双语对照词典结果:processerror[英][ˈprəusesˈerə][美][ˈprɑsˌɛsˈɛrɚ]过程误差;以上结果来自金山词霸例句:1.But...

【I'mavailable12 nnand 1pmaswelltomorrow这是聊天记录中间的...

[最佳回答]既然是聊天就随意了,估计不是老外写的.nn=noon中午

if函数能否同时使用OR和 AND ?

不可以的。一、IF+AND:同时满足多个条件1、AND函数的语法:AND(条件1,=标准1,条件2=标准2……条件N=标准N)。如果每个条件和标准都相等,则返回TRUE,否则返...

and 简写怎么打_作业帮

[最佳回答]&shift键+7

【英语: n 可以表示 and 】作业帮

[最佳回答]是这样,英语口语中由于语速的需要所以不可能把每一个词都发得字正腔圆,因此有一些词在一些情况下可以缩读.and就是其中的一个.举个例子:rockandr...

 梨泰院踩踏事故  LEXBURNER事件 
王经理: 180-0000-0000(微信同号)
10086@qq.com
北京海淀区西三旗街道国际大厦08A座
©2024  上海羊羽卓进出口贸易有限公司  版权所有.All Rights Reserved.  |  程序由Z-BlogPHP强力驱动
网站首页
电话咨询
微信号

QQ

在线咨询真诚为您提供专业解答服务

热线

188-0000-0000
专属服务热线

微信

二维码扫一扫微信交流
顶部