华为发布AI推理创新技术UCM 有望降低对HBM依赖

mulunbo · 发表于 2025-8-12 15:21

马上注册，查看更多内容，享用更多功能，让你轻松玩转社区。

您需要登录才可以下载或查看，没有账号？注册

×

文｜木木
编辑｜苏扬
北京时间 8 月 12 日，华为在 2025 金融 AI 推理应用落地与发展论坛上正式发布 AI 推理创新技术 UCM（推理记忆数据管理器）。这项技术的推出，有望降低 AI 推理对 HBM（高带宽内存）技术的依赖，同时显著提升国内 AI 大模型推理性能。
当前，AI 大模型训练对内存带宽需求呈指数级增长，传统 DDR 内存已无法满足需求。HBM 通过 3D 堆叠技术将 DRAM 芯片垂直堆叠，最新的 HBM3E 可实现高达 819GB/s 的带宽，较 DDR5 提升 5 倍以上，成为解决 “数据搬运” 的关键技术。
然而，当 HBM 不足时，用户使用 AI 推理的体验会明显下降，导致任务卡顿、响应慢等问题。在 AI 服务器中，HBM 的成本占比约为 20% 至 30%。因此，降低对 HBM 的依赖成为亟待解决的行业难题。
华为推出的 UCM 是以 KV Cache 为中心的推理加速套件，融合了多类型缓存加速算法工具。
其工作原理是通过分级管理推理过程中产生的 KV Cache 记忆数据，扩大推理上下文窗口，从而实现高吞吐、低时延的推理体验。推理体验直接关系到用户与 AI 交互时的感受，包括回答问题的时延、答案的准确度以及复杂上下文的推理能力等方面。
UCM 技术通过优化 KV Cache 记忆数据管理，能够降低每 Token 的推理成本，切实提升用户的使用体验。
据悉，UCM 技术已率先在中国银联 “客户之声”“营销策划”“办公助手” 三大业务场景中，开展智慧金融 AI 推理加速应用试点。这一技术的突破，有望缓解当前因 HBM 不足而导致的 AI 推理体验瓶颈问题。
华为计划于2025年9月正式开源UCM，届时将在魔擎社区首发，后续逐步贡献给业界主流推理引擎社区，并共享给业内所有Share Everything(共享架构)存储厂商和生态伙伴。

ycp123 · 发表于 2025-8-12 15:35

华为这UCM技术就像给AI推理装了个智能收纳盒分级管KV Cache数据直接把推理上下文窗口撑大我看行比等HBM降价靠谱多了

weili0677 · 发表于 2025-8-12 16:31

通过非摩尔补摩尔，数学补物理，软件补硬件，等系统工程方法创新，解决AI国产化性能不足的问题。

dsfgdsg · 发表于 2025-8-12 17:01

攀登科技高峰，解决卡脖子问题，还得看华为。华为牛逼！

walysj · 发表于 2025-8-12 17:42

我要么不买，要买的话贵我也要买华为的。要不然我们后代永远只能用美国加价的阉割版物品。你们说我哈不哈？

账号		自动登录	找回密码
密码			注册

[科技新闻] 华为发布AI推理创新技术UCM 有望降低对HBM依赖

马上注册，查看更多内容，享用更多功能，让你轻松玩转社区。