华为发布AI推理创新技术UCM
作者:
文少
责任编辑:刘沙
来源:
电脑商情在线
时间:2025-08-13 11:34
关键字:
华为 AI推理 UCM
8月12日,在2025金融AI推理应用落地与发展论坛上,华为携手中国银联正式发布新一代推理加速技术UCM(Unified Cache Manager,推理记忆数据管理器),宣称可将大模型推理时延压至毫秒级,并把单Token成本同步拉低。
中信建投在2025 WAIC期间发布的行业白皮书指出,AI算力需求正从训练侧转向推理侧。用户体验瓶颈随之浮现:海外主流模型已能做到单用户输出速度200 Tokens/s(约5 ms时延),而国内平均水平仍停留在60 Tokens/s(50–100 ms时延)。如何兼顾推理效率与用户体验,成为金融、客服等高并发场景落地的关键痛点。
UCM推理记忆数据管理器以KV Cache为核心,融合了多类型缓存加速算法工具,对推理过程中生成的Key-Value记忆数据做分级管理,显著扩展上下文窗口长度,实现“高吞吐、低时延”双重优化,降低每Token推理成本。
据透露,UCM将率先面向金融、运营商及政务行业开放内测,并计划三季度上线公有云API。