豆包开源MoE架构关键优化技术,可节省40%训练成本
文少
责任编辑:刘沙
电脑商情在线
时间:2025-03-11 17:23
豆包 字节跳动 大模型 开源 COMET MoE
近日,字节跳动在大模型技术领域取得显著突破,其豆包大模型团队成功开源了一项针对混合专家(MoE)架构的关键优化技术,可提高大模型训练效率1.7倍,节省40%成本。
该技术在实际应用中表现出色,已在其内部的万卡集群训练中部署,节省了数百 GPU小时的训练算力,大大降低了训练成本,提升了训练效率。
MoE架构是当前大模型的主流架构之一,在分布式训练过程中面临一个棘手问题,即存在大量的跨设备通信开销,这在很大程度上限制了大模型训练效率的提升,导致训练成本居高不下。以海外主流模型 Mixtral-8x7B 为例,在训练过程中,通信时间占比竟高达 40%。为解决这一难题,字节跳动团队经过深入研究与反复实践,自主研发了 COMET 计算 - 通信重叠技术,大幅压缩了 MoE 专家通信空转时间,有效缓解了通信开销问题。
与近期 DeepSeek 开源的 DualPipe 等 MoE 优化方案相比,COMET 技术具有独特的优势。它如同一个便捷的插件,能够直接接入现有的 MoE 训练框架,而无需对训练框架进行侵入式改动,极大地提高了兼容性和通用性,且支持业界绝大部分主流大模型。正因如此,COMET 凭借其简洁、通用的设计理念,在全球机器学习系统顶级会议 MLSys 2025 上获得了 5/5/5/4 的高分评价,被认为“在大规模生产环境中极具应用潜力”。
值得一提的是,COMET 与Deepseek 研发的DualPipe 方案并不冲突,二者可以联合使用。COMET 采用计算 - 通信融合算子的优化方式来降低 MoE 通信开销,而 DualPipe 则通过排布算子来掩盖通信,二者结合使用有望进一步大幅度压缩模型训练成本。
目前,COMET 支持多种 MoE 并行模式,部署灵活方便。同时,COMET 核心代码已开源,并向开发者提供了一套Python API,计划兼容 Triton 等编译生态。这一系列举措将进一步推动 COMET 技术在业界的广泛应用与深入发展。