华为发布AI推理创新技术UCM

作者:

文少

责任编辑:

刘沙

来源:

电脑商情在线

时间:

2025-08-13 11:34

关键字:

华为 AI推理 UCM

  8月12日,在2025金融AI推理应用落地与发展论坛上,华为携手中国银联正式发布新一代推理加速技术UCM(Unified Cache Manager,推理记忆数据管理器),宣称可将大模型推理时延压至毫秒级,并把单Token成本同步拉低。

  中信建投在2025 WAIC期间发布的行业白皮书指出,AI算力需求正从训练侧转向推理侧。用户体验瓶颈随之浮现:海外主流模型已能做到单用户输出速度200 Tokens/s(约5 ms时延),而国内平均水平仍停留在60 Tokens/s(50–100 ms时延)。如何兼顾推理效率与用户体验,成为金融、客服等高并发场景落地的关键痛点。

  UCM推理记忆数据管理器以KV Cache为核心,融合了多类型缓存加速算法工具,对推理过程中生成的Key-Value记忆数据做分级管理,显著扩展上下文窗口长度,实现“高吞吐、低时延”双重优化,降低每Token推理成本。

  据透露,UCM将率先面向金融、运营商及政务行业开放内测,并计划三季度上线公有云API。

ToB最前沿

ToB最前沿抖音号

CBI科技在线

地址:北京市朝阳区北三环东路三元桥曙光西里甲1号第三置业A座1508室 商务内容合作QQ:2291221 电话:13391790444或(010)62178877
版权所有:电脑商情信息服务集团 北京赢邦策略咨询有限责任公司
声明:本媒体部分图片、文章来源于网络,版权归原作者所有,我司致力于保护作者版权,如有侵权,请与我司联系删除
京ICP备:2022009079号-3
京公网安备:11010502051901号
ICP证:京B2-20230255