英伟达优化Spectrum-XGS算法,以提升以太网长距离GPU通信的速度和可靠性
CBINEWS
责任编辑:邹大斌
电脑商情在线
时间:2025-08-25 11:18
英伟达 Spectrum-X 以太网 GPU
英伟达希望提升以太网实现的长距离GPU间通信速度与可靠性,并于上周五推出了新的以太网算法来实现这一目标。
Spectrum-XGS算法是嵌入英伟达最新以太网设备中的软件协议。这些算法可自动调整远距离网络性能,使分布在多个数据中心服务器中的GPU如同单一、统一的AI超级计算机般协同运行。
“这不是新的硬件组件,而是利用了Spectrum-X基础设施,新算法能有效在不同站点之间更高效地传输更多数据,”英伟达网络业务高级副总裁 Gilad Shainer 表示。
Gilad Shainer 将于8月26日在加州帕洛阿尔托举行的Hot Chips大会上详细介绍这项技术。
Shainer 表示,由于数据中心在规模和电力供应方面受到限制,企业正将数据中心部署分散化,从而导致GPU分布在更远的距离上。
XGS算法通过分析包括数据中心之间距离、流量模式、拥塞程度和性能指标在内的实时遥测数据,动态调整拥塞控制、路由和负载均衡,以优化远距离网络性能。
Shainer 指出:“传统以太网通常对所有连接一视同仁,而XGS则能根据实际传输距离自动调优算法。”
目前,Spectrum-XGS已在相距数百公里的数据中心中开始部署,集成于Spectrum-X交换机、ConnectX-8 SuperNIC网卡以及搭载Blackwell GPU的系统中。
“这些算法与数据中心内部运行的算法不同,” Shainer 说。
定制化标准
以太网是一项行业标准,但厂商通常会在其设备中进行个性化调整。
Tirias Research首席分析师 Jim McGregor 表示,Spectrum-XGS可能是英伟达首次为长距离GPU和AI通信定制的以太网增强技术。
“如果你能估算传输距离,就能整体提升性能。在数据中心内部实现这一点是一回事,在数据中心之间估算性能则是另一回事,” McGregor 说。
他指出,由于功耗和成本限制,GPU未来将不可避免地分布得更远。
“这项技术可能适用于模块化数据中心,比如集装箱式数据中心,客户可直接部署并用大规模扩展网络连接它们,” McGregor 说。
Next Curve执行分析师 Leonard Lee 表示,这项技术可帮助那些拥有多个园区训练集群、且部署区域电力资源有限的企业。
“目前看来它主要面向训练场景……但毫无疑问,XGS未来也将在推理领域找到应用机会,” Lee 说。
Shainer 指出,以太网的厂商定制化取决于具体实现方式。虚拟化数据中心通常关注小数据包;超大规模云厂商侧重吞吐量;而服务提供商则倾向于为远距离通信配置更深的缓冲区。
Shainer 表示,英伟达XGS的改进包括“细粒度自适应路由,逐包调整”,从而避免了丢包或深缓冲区问题——后者通常通过堆积数据包来防止丢包。
通常,AI任务会被拆分并分发到多个GPU上,这些GPU再协同工作以生成统一结果。Shainer 表示,自适应路由可确保在远距离运行AI工作负载时,网络与GPU保持同步。
时延问题
“如果我重传一个数据包,就会产生时延抖动(jitter),这意味着众多GPU中的一个会延迟,而其他所有GPU都必须等待它完成,” Shainer 解释道。
拥塞控制的改进通过在交换机之间均衡传输来消除瓶颈。
英伟达高管在技术简报会上表示,公司已在服务器硬件上测试了XGS算法,与现成的网络技术相比,GPU间通信性能提升了1.9倍。
云服务提供商已拥有长距离高速网络。例如,谷歌的大规模Jupiter网络就使用光交换技术,实现其AI芯片(TPU)之间的高速通信。
Shainer 强调,必须将物理基础设施与XGS这类软件算法区分开来。
“横跨大陆的光纤网络已经存在,用于连接不同系统,但真正决定实际性能的是运行在这些网络之上的、不断演进的软件协议,”他说。
从InfiniBand转向以太网
以太网已有50年历史,但长期以来并非英伟达的重点领域——英伟达一直是InfiniBand网络技术的推动者,用于长距离GPU通信。
然而,Tirias Research的 Jim McGregor 指出,出于成本等因素,整个行业正越来越多地转向以太网这一开放标准。
Next Curve的 Leonard Lee 认为,购买XGS技术可能会使客户进一步依赖英伟达的其他产品。
“英伟达希望为其硬件提供全栈解决方案,但在NVLink Fusion等产品上仍保留一定的混合搭配灵活性,” Lee 说。
网络业务正成为英伟达的重要增长点,在截至4月27日的最近一个财季中,该业务收入达到50亿美元,同比增长56%。
但竞争也在加剧。Lee 指出,Arista、思科、Ciena、博通等以太网厂商正在调整其园区和区域光网络产品,以应对这一趋势。