华为推新技术优化大模型推理:UCM 技术缓解 HBM 依赖

AI资讯2个月前发布 阿力
19 0

8月12日,华为将在2025金融AI推理应用落地与发展论坛上发布突破性AI推理创新技术UCM(推理记忆数据管理器)。该技术有望降低中国AI推理对HBM(高带宽内存)的依赖,并显著提升国内大模型推理性能。

UCM以KVCache为核心,融合多类型缓存加速算法工具,通过分级管理推理过程中产生的记忆数据,扩大上下文窗口,实现高吞吐、低时延的推理体验,并降低每Token的推理成本。这一方案可缓解HBM资源不足带来的任务卡顿与响应延迟问题。

在此次论坛上,华为将与中国银联共同发布AI推理最新应用成果。信通院、清华大学、科大讯飞等机构专家也将分享大模型推理加速与体验优化的实践。华为数据存储产品线副总裁樊杰表示,未来AI突破将高度依赖高质量行业数据的释放,高性能AI存储可将数据加载时间从小时级缩短至分钟级,使算力集群效率从30%提升至60%。

业内分析认为,UCM的推出正值AI产业从“追求模型能力极限”转向“追求推理体验最优化”的关键节点,推理体验已成为衡量AI商业价值的重要标准。长城证券指出,随着大模型能力持续提升与商业场景扩展,算力及产业链公司有望迎来新的发展机遇。

© 版权声明

相关文章

暂无评论

暂无评论...