豆包开源MoE架构关键优化技术,可节省40%训练成本

作者:

文少

责任编辑:

刘沙

来源:

电脑商情在线

时间:

2025-03-11 17:23

关键字:

豆包 字节跳动 大模型 开源 COMET MoE

  近日,字节跳动在大模型技术领域取得显著突破,其豆包大模型团队成功开源了一项针对混合专家(MoE)架构的关键优化技术,可提高大模型训练效率1.7倍,节省40%成本。

  该技术在实际应用中表现出色,已在其内部的万卡集群训练中部署,节省了数百 GPU小时的训练算力,大大降低了训练成本,提升了训练效率。

  MoE架构是当前大模型的主流架构之一,在分布式训练过程中面临一个棘手问题,即存在大量的跨设备通信开销,这在很大程度上限制了大模型训练效率的提升,导致训练成本居高不下。以海外主流模型 Mixtral-8x7B 为例,在训练过程中,通信时间占比竟高达 40%。为解决这一难题,字节跳动团队经过深入研究与反复实践,自主研发了 COMET 计算 - 通信重叠技术,大幅压缩了 MoE 专家通信空转时间,有效缓解了通信开销问题。

  与近期 DeepSeek 开源的 DualPipe 等 MoE 优化方案相比,COMET 技术具有独特的优势。它如同一个便捷的插件,能够直接接入现有的 MoE 训练框架,而无需对训练框架进行侵入式改动,极大地提高了兼容性和通用性,且支持业界绝大部分主流大模型。正因如此,COMET 凭借其简洁、通用的设计理念,在全球机器学习系统顶级会议 MLSys 2025 上获得了 5/5/5/4 的高分评价,被认为“在大规模生产环境中极具应用潜力”。

  值得一提的是,COMET 与Deepseek 研发的DualPipe 方案并不冲突,二者可以联合使用。COMET 采用计算 - 通信融合算子的优化方式来降低 MoE 通信开销,而 DualPipe 则通过排布算子来掩盖通信,二者结合使用有望进一步大幅度压缩模型训练成本。

  目前,COMET 支持多种 MoE 并行模式,部署灵活方便。同时,COMET 核心代码已开源,并向开发者提供了一套Python API,计划兼容 Triton 等编译生态。这一系列举措将进一步推动 COMET 技术在业界的广泛应用与深入发展。

ToB最前沿

ToB最前沿抖音号

CBI科技在线

地址:北京市朝阳区北三环东路三元桥曙光西里甲1号第三置业A座1508室 商务内容合作QQ:2291221 电话:13391790444或(010)62178877
版权所有:电脑商情信息服务集团 北京赢邦策略咨询有限责任公司
声明:本媒体部分图片、文章来源于网络,版权归原作者所有,我司致力于保护作者版权,如有侵权,请与我司联系删除
京ICP备:2022009079号-3
京公网安备:11010502051901号
ICP证:京B2-20230255