智谱采用国产芯片训练出顶尖大模型

作者:

CBINEWS

责任编辑:

邹大斌

来源:

电脑商情在线

时间:

2026-01-15 16:21

关键字:

智谱 AI 大模型 国产GPU 华为

智谱AI近日宣布,其图像生成模型已完全在华为处理器上完成训练,表明中国企业即便无法获得先进西方芯片,也能构建具有竞争力的人工智能系统。

该公司周二发布的这一模型,据其声明称,是首个完全使用国产芯片完成全流程训练的最先进多模态大模型。这家总部位于北京的公司利用华为昇腾Atlas 800T A2设备,并基于华为自研的MindSpore AI框架,完成了从数据预处理到大规模训练的整个流程,全程未依赖任何西方硬件。

这一成果对智谱AI具有重要战略意义。去年,美国商务部将其列入“与美国国家安全或外交政策利益相悖”的实体清单。该举措实质上切断了智谱获取英伟达H100和A100 GPU的渠道——而这两款芯片已成为训练先进AI模型的事实标准,迫使中国公司围绕国产芯片架构开发替代方案。

被列入清单后,智谱便开始与华为合作开发GLM-Image。如今,华为昇腾(Ascend)处理器已成为被限制购买英伟达硬件的中国AI企业的主要替代选择。此次GLM-Image在昇腾芯片上成功训练,提供了有力证据:即使受限于西方芯片禁令,中国企业仍能开发出具备国际竞争力的AI系统。

智谱在声明中表示:“这证明了在完全自主研发的全栈计算平台上训练高性能多模态生成模型的可行性。”

目前,智谱已通过API开放GLM-Image服务,每生成一张图像收费0.1元人民币。同时,公司已在GitHub、Hugging Face和魔搭(ModelScope)社区开源模型权重,支持用户独立部署。

该定价策略使GLM-Image成为企业大规模生成营销素材、演示文稿及其他以文本为主的视觉内容时极具成本效益的选择。

技术架构与基准表现

根据智谱的技术报告,GLM-Image采用混合架构:结合了一个90亿参数的自回归模型和一个70亿参数的扩散解码器。其中,自回归组件负责理解指令并规划整体图像构图,而扩散解码器则专注于渲染精细细节和准确文本。

该架构特别针对知识密集型视觉内容生成中的核心挑战——既需强大的语义理解能力,又要求精确的文字呈现,例如演示幻灯片、信息图和商业海报等场景。

在CVTG-2K基准测试(衡量图像中多位置文本放置准确性的指标)中,GLM-Image以0.9116的“文字准确率”(Word Accuracy)位居所有开源模型榜首。在LongText-Bench长文本渲染测试中,该模型同样领先:在包括标识牌、海报、对话框等八类场景中,英文得分为0.952,中文高达0.979。

报告还指出,该模型原生支持从1024×1024到2048×2048像素的多种分辨率,无需重新训练。

硬件优化策略

在昇腾硬件上训练GLM-Image,要求智谱针对华为芯片架构开发定制化优化技术。公司构建了一套训练套件,实现了“动态图多级流水线部署”,使训练流程的不同阶段可并行运行,有效缓解瓶颈。

此外,智谱还开发了与昇腾架构兼容的高性能融合算子,并在分布式训练中采用多流并行技术,使通信与计算操作重叠执行。这些优化旨在从与英伟达GPU架构迥异的国产硬件中榨取最大性能——因为主流AI框架默认均以英伟达GPU为目标平台。

这一技术路径验证了在中国本土芯片生态上训练出有竞争力AI模型的可能性,但其背后所付出的开发周期与工程投入成本尚不明确。

智谱并未透露训练该模型具体使用了多少颗处理器、耗时多久,也未说明其资源需求与同等英伟达系统的对比情况。

对于在中国运营的跨国企业而言,GLM-Image的成功训练表明:中国本土AI基础设施已具备支撑顶尖模型开发的能力。相关企业可能需要评估是否应围绕华为昇腾芯片和MindSpore等国产平台制定新的技术战略。

当前,中国公司正加速投资建设自主AI基础设施体系。而美国的出口管制究竟会延缓还是反而加速平行AI生态系统的形成,仍是政策界激烈争论的焦点。

ToB最前沿

ToB最前沿抖音号

CBI科技在线

友情链接
地址:北京市朝阳区北三环东路三元桥曙光西里甲1号第三置业A座1508室 商务内容合作QQ:2291221 电话:13391790444或(010)62178877
版权所有:电脑商情信息服务集团 北京赢邦策略咨询有限责任公司
声明:本媒体部分图片、文章来源于网络,版权归原作者所有,我司致力于保护作者版权,如有侵权,请与我司联系删除
京ICP备:2022009079号-3
京公网安备:11010502051901号
ICP证:京B2-20230255