27支战队鄂尔多斯集结!PAC2025封神之战成绩出炉!

作者:

CBINEWS

责任编辑:

张金祥

来源:

电脑商情在线

时间:

2025-10-21 16:48

关键字:

PAC2025 鄂尔多斯 Attention

8月14-15日,第十二届PAC全国并行应用挑战赛总决赛现场,代码比焰火更绚烂!

48小时不眠不休,27支顶尖战队,封神鏖战,将年度最强算力之战玩成了青春风暴现场,将国产算力性能推向新纪元!

「应用赛道: “破界者”用技术点燃真实场景」  

【应用赛道】技术亮点

国产计算平台性能突破

在国产CPU平台上实现与GPU相当的端到端训练性能,支持超大Batch训练且收敛稳定;基于鲲鹏平台硬件优越性,为下一步“数值算法+AI”耦合应用提供硬件支撑。

分子动力学鲲鹏加速

基于数据局部性的原子排列,向量化ARM版超越函数库,全流程混合精度向量化等算法设计,在20亿原子超大规模体系下保持弱扩展8倍/强扩展4倍时80%的并行效率。

并行优化赋能广域海区计算

通过模型重构、混合并行、动态均衡及国产化移植,开发了一套高效的并行计算方案。形成“广域声场网格化建模—混合并行加速—动态负载均衡优化”三位一体优化方案。

鲲鹏平台中子输运全栈优化

通过OpenEuler/ARM平台适配,采用矩阵运算 2 intrinsics、e指数转换、混合精度等优化手段,基于NUMA绑定和RoCE协议配置,实现了1.5万+核高效并行计算,具备二维/三维、方形/六角形、平源/线性源、多群/细群高精度中子输运计算能力。

「优化赛道:  “极限榨汁”将性能爆出新高度」  

【优化赛道】技术亮点

全栈优化能力提升

本届参赛作品展现出从系统架构到指令集的全栈优化方案,通过系统级NUMA绑核、透明大页配置,以及算法上两级分块、矩阵重排、数据预取、维护线程池等组合技术,最终实现性能提升。

矩阵外积乘法的指令集优化

基于SVMOPA的数值扩展2路矩阵外积乘法,兼顾效率与计算稳定性。同时通过SVSPLICE、SVZIP的ON-THE-FLY快速矩阵转置存取,避免了低效的Gather操作,显著提升数据访问效率。

Attention算子高效实现

针对Attention算子计算痛点,通过GEMM两级分块和矩阵预重排+Softmax算子设计矩阵分块方法以及线程排布+FlashAttention算子融合减少中间结果的访存开销等策略,实现计算-访存-负载优化,最终实现8880.2ms到0.67ms的性能加速。

经典分块优化框架

采用了经典的 GotoBLAS/BLIS 优化框架,将复杂的矩阵乘法分解为三层循环,以最大化利用CPU缓存和SIMD单元。

这届年轻人真会玩!

应用赛道,有人深度魔改,激发出鲲鹏平台的核心隐藏性能,在气象预测、医疗分析里玩出了加速度;单细胞组学的并行分析平台,让科研效率直接开挂。优化赛道更绝!从底层硬件到高层算法全栈拿捏,跨学科混搭玩得飞起,硬是把算力潜力挖到了天花板!

从2013年走到现在,PAC早已成为硬核青年的圆梦舞台。这一次,年轻人再次用代码重新定义了可能——他们让国产算力平台的性能曲线,陡峭得令人血脉偾张,心跳加速!

代码是武器,创新是底气

一群人用热爱把国产算力生态越做越燃!


PAC十二届沉淀出的不仅是技术

更是一种将“不可能”塑造成“里程碑”的勇气!

2025赛季,在鄂尔多斯的星空下圆满收官,但属于年轻人的算力故事,才刚刚开始。

ToB最前沿

ToB最前沿抖音号

CBI科技在线

地址:北京市朝阳区北三环东路三元桥曙光西里甲1号第三置业A座1508室 商务内容合作QQ:2291221 电话:13391790444或(010)62178877
版权所有:电脑商情信息服务集团 北京赢邦策略咨询有限责任公司
声明:本媒体部分图片、文章来源于网络,版权归原作者所有,我司致力于保护作者版权,如有侵权,请与我司联系删除
京ICP备:2022009079号-3
京公网安备:11010502051901号
ICP证:京B2-20230255