豆包开源MoE架构关键优化技术，可节省40%训练成本

作者：

文少

责任编辑：

刘沙

来源：

电脑商情在线

时间：

2025-03-11 17:23

关键字：

豆包字节跳动大模型开源 COMET MoE

　　近日，字节跳动在大模型技术领域取得显著突破，其豆包大模型团队成功开源了一项针对混合专家（MoE）架构的关键优化技术，可提高大模型训练效率1.7倍，节省40%成本。

　　该技术在实际应用中表现出色，已在其内部的万卡集群训练中部署，节省了数百 GPU小时的训练算力，大大降低了训练成本，提升了训练效率。

　　MoE架构是当前大模型的主流架构之一，在分布式训练过程中面临一个棘手问题，即存在大量的跨设备通信开销，这在很大程度上限制了大模型训练效率的提升，导致训练成本居高不下。以海外主流模型 Mixtral-8x7B 为例，在训练过程中，通信时间占比竟高达 40%。为解决这一难题，字节跳动团队经过深入研究与反复实践，自主研发了 COMET 计算 - 通信重叠技术，大幅压缩了 MoE 专家通信空转时间，有效缓解了通信开销问题。

　　与近期 DeepSeek 开源的 DualPipe 等 MoE 优化方案相比，COMET 技术具有独特的优势。它如同一个便捷的插件，能够直接接入现有的 MoE 训练框架，而无需对训练框架进行侵入式改动，极大地提高了兼容性和通用性，且支持业界绝大部分主流大模型。正因如此，COMET 凭借其简洁、通用的设计理念，在全球机器学习系统顶级会议 MLSys 2025 上获得了 5/5/5/4 的高分评价，被认为“在大规模生产环境中极具应用潜力”。

　　值得一提的是，COMET 与Deepseek 研发的DualPipe 方案并不冲突，二者可以联合使用。COMET 采用计算 - 通信融合算子的优化方式来降低 MoE 通信开销，而 DualPipe 则通过排布算子来掩盖通信，二者结合使用有望进一步大幅度压缩模型训练成本。

　　目前，COMET 支持多种 MoE 并行模式，部署灵活方便。同时，COMET 核心代码已开源，并向开发者提供了一套Python API，计划兼容 Triton 等编译生态。这一系列举措将进一步推动 COMET 技术在业界的广泛应用与深入发展。