为了AI，巴西对超级计算机Santos Dumont进行重大升级

作者：

CBINEWS

责任编辑：

邹大斌

来源：

电脑商情在线

时间：

2025-07-16 10:49

关键字：

AI HPC 巴西

每一个非美国和中国的大型经济体——这些国家在高性能计算（HPC）国家实验室以及超大规模云计算和科技巨头方面占据不成比例的优势——现在比以往任何时候都更渴望实现人工智能（AI）主权，远超过他们过去对HPC仿真与建模的关注。

原因很简单：AI对商业和政府具有直接影响，因为人们要么被AI软件及其背后昂贵的硬件所取代，要么被增强；而HPC则是一种间接驱动我们生活质量和治理能力的力量，除了可能的气象建模外。我们并不是说HPC就不重要了——多年来我们一直强调它的重要性——但要说服政界和企业投入数十亿美元战略资金建设AI能力，要比说服他们花十分之一甚至二十分之一的资金升级一套HPC系统容易得多。

这就是我们当前所处的世界。我们必须接受这样一个现实：AI正是我们一直在等待的那个能真正推动HPC发展的杀手级应用。为AI工作负载构建机器意味着我们可以获得既能运行AI任务、也能处理大规模HPC仿真的高性能计算平台，这是好消息。

坏消息是，HPC应用将不得不进行算法和求解器层面的改造，以适应张量数学单元和各种精度的浮点运算，从而达到我们期望从超级计算机中获得的吞吐性能。而由于NVIDIA和AMD对其GPU计算集群的定价极高，这种超级计算机的成本远远高于HPC中心习惯支付的价格。

一个典型的例子就是巴西最近对其名为“Santos Dumont”的超级计算机的升级。这台超级计算机由巴西政府运营，位于里约热内卢州北部彼得罗波利斯市的国家科学计算实验室（LNCC）。

这台在过去十年中多次现场升级的机器，刚刚作为巴西人工智能计划的一部分获得了重大技术升级。

巴西人工智能国家计划（BPIA）于2024年7月宣布，并在当时的第五届国家科学技术与创新大会（5CNCTI）开幕式上提交给总统路易斯·因西奥·拉莫斯·达席尔瓦（Luiz Inácio Lula da Silva）。该计划已于几周前正式获批。未来四年（2025至2028年），BPIA将投资230亿雷亚尔（约合42亿美元，按当前美元兑巴西雷亚尔汇率计算）。这个金额对于美国或中国的超大规模企业和云服务商来说并不算多，但对于任何国家政府而言，这都是一笔用于发展自主可控AI能力的巨额支出。

除此之外，巴西还希望拥有一台全球排名前五的AI超级计算机（假设不计入那些由超大规模企业和模型公司部署的机器群），并拥有自主研发的AI模型，而不是依赖国外提供的模型。

然而，巴西别无选择，只能继续依赖外国硬件供应商。目前其主要供应商是Atos旗下的HPC部门Eviden，此前名为Bull。巴西是南美最大的经济体，预计2025年的GDP约为2.13万亿美元，人口将达到约2.15亿。

去年夏天，我们在为英国争取对HPC和AI系统进行大规模投资时曾做过一项分析：仅就传统HPC系统而言，如果你将美国和中国安装的FP64性能总和（以Exaflops为单位）除以两国GDP总和，你会得到一个数值0.186。如果以此类推到巴西（其GDP略小于英国，2024年约为2.92万亿美元），那么巴西应该在全国公共和私人设施中部署大约400Petaflops的HPC容量。如果换算成FP8性能，则相当于约3.2 Exaflops，足以支持HPC和AI双重应用。

遗憾的是，对于Eviden和LNCC来说，最新升级后的Santos Dumont超级计算机远远未达到这一水平。不过考虑到这次有42亿美元的预算目标，以及打造全球顶级AI超级计算机的雄心，未来仍有可能出现一台真正的“巨无霸”级机器。

最初的Santos Dumont超级计算机于2015年安装，性能为1.1 Petaflops，耗资约5000万至6000万雷亚尔。2019年，该系统升级至1.5 Petaflops，费用由巴西石油巨头Petrobras承担。最近一次升级于2024年3月宣布，耗资1亿雷亚尔（约合1940万美元），将系统的FP64性能提升至18.85 Petaflops，是十年前原始系统的6.75倍。这一次，Petrobras再次出资。目前尚不清楚这台机器中有多少容量归该公司所有。

此次Santos Dumont的升级非常具有代表性，因为它不仅采用了混合架构，还在芯片供应商上进行了分散布局，同时使用了来自NVIDIA和AMD的CPU与GPU。所有的计算模块都集成在BullSequana XH3000机架中，采用高密度设计并配备直接液冷系统，以提高能效和维持性能。

升级后的Santos Dumont分为五个分区：

第一分区包含62个XH3145-H刀片，每个刀片搭载两颗“Sapphire Rapids”Xeon 4处理器和四块“Hopper”H100 GPU加速器；
第二分区包含20个XH3420刀片，每个刀片包含三个节点，每个节点又分别搭载两颗96核的AMD“Genoa-X”Epyc 9684X CPU；
第三分区包含36个节点，每个节点由四个“Grace”CG100处理器和Hopper H100 GPU通过NVLink 4接口互联，构成共享内存配置；
第四分区包含六个刀片，每个刀片三个节点，每个节点包含一对“Antares”MI300A混合CPU-GPU计算引擎（与劳伦斯·利弗莫尔国家实验室的“El Capitan”超级计算机使用的相同）；
第五分区包含四个节点，配备“Grace-Grace”超级芯片。

在我们看来，这台机器看起来既是一个测试平台，可用于未来更大规模采购的前期验证，也是一台混合架构的机器，使LNCC能够立即执行比之前的1.5 Petaflops版本更为复杂的HPC和AI任务。

我们目前尚未发现Eviden即将获得一笔订单，建造一台400 Petaflops级别的超级计算机（成本可能在4.08亿美元左右），帮助巴西跃升至国家级HPC和AI超级计算的前列。但这样的系统花费不到巴西政府已批准的42亿美元BPIA预算的十分之一。

我们将持续关注此类交易的动向。