华为推新技术优化大模型推理：UCM 技术缓解 HBM 依赖

19 0 0

8月12日，华为将在2025金融AI推理应用落地与发展论坛上发布突破性AI推理创新技术UCM（推理记忆数据管理器）。该技术有望降低中国AI推理对HBM（高带宽内存）的依赖，并显著提升国内大模型推理性能。

UCM以KVCache为核心，融合多类型缓存加速算法工具，通过分级管理推理过程中产生的记忆数据，扩大上下文窗口，实现高吞吐、低时延的推理体验，并降低每Token的推理成本。这一方案可缓解HBM资源不足带来的任务卡顿与响应延迟问题。

在此次论坛上，华为将与中国银联共同发布AI推理最新应用成果。信通院、清华大学、科大讯飞等机构专家也将分享大模型推理加速与体验优化的实践。华为数据存储产品线副总裁樊杰表示，未来AI突破将高度依赖高质量行业数据的释放，高性能AI存储可将数据加载时间从小时级缩短至分钟级，使算力集群效率从30%提升至60%。

业内分析认为，UCM的推出正值AI产业从“追求模型能力极限”转向“追求推理体验最优化”的关键节点，推理体验已成为衡量AI商业价值的重要标准。长城证券指出，随着大模型能力持续提升与商业场景扩展，算力及产业链公司有望迎来新的发展机遇。

打赏赞