找回密码
 注册

QQ登录

只需一步,快速开始

搜索
查看: 90|回复: 4

[科技新闻] 华为发布AI推理创新技术UCM 有望降低对HBM依赖

[复制链接]
  • 打卡等级:已臻大成
  • 打卡总天数:411
发表于 2025-8-12 15:21 | 显示全部楼层 |阅读模式

马上注册,查看更多内容,享用更多功能,让你轻松玩转社区。

您需要 登录 才可以下载或查看,没有账号?注册

×
1.webp


文|木木
编辑|苏扬
北京时间 8 月 12 日,华为在 2025 金融 AI 推理应用落地与发展论坛上正式发布 AI 推理创新技术 UCM(推理记忆数据管理器)。这项技术的推出,有望降低 AI 推理对 HBM(高带宽内存)技术的依赖,同时显著提升国内 AI 大模型推理性能。
当前,AI 大模型训练对内存带宽需求呈指数级增长,传统 DDR 内存已无法满足需求。HBM 通过 3D 堆叠技术将 DRAM 芯片垂直堆叠,最新的 HBM3E 可实现高达 819GB/s 的带宽,较 DDR5 提升 5 倍以上,成为解决 “数据搬运” 的关键技术。
然而,当 HBM 不足时,用户使用 AI 推理的体验会明显下降,导致任务卡顿、响应慢等问题。在 AI 服务器中,HBM 的成本占比约为 20% 至 30%。因此,降低对 HBM 的依赖成为亟待解决的行业难题。
华为推出的 UCM 是以 KV Cache 为中心的推理加速套件,融合了多类型缓存加速算法工具。
其工作原理是通过分级管理推理过程中产生的 KV Cache 记忆数据,扩大推理上下文窗口,从而实现高吞吐、低时延的推理体验。推理体验直接关系到用户与 AI 交互时的感受,包括回答问题的时延、答案的准确度以及复杂上下文的推理能力等方面。
UCM 技术通过优化 KV Cache 记忆数据管理,能够降低每 Token 的推理成本,切实提升用户的使用体验。
据悉,UCM 技术已率先在中国银联 “客户之声”“营销策划”“办公助手” 三大业务场景中,开展智慧金融 AI 推理加速应用试点。这一技术的突破,有望缓解当前因 HBM 不足而导致的 AI 推理体验瓶颈问题。
华为计划于2025年9月正式开源UCM,届时将在魔擎社区首发,后续逐步贡献给业界主流推理引擎社区,并共享给业内所有Share Everything(共享架构)存储厂商和生态伙伴。
  • 打卡等级:已臻大成
  • 打卡总天数:411
发表于 2025-8-12 15:35 | 显示全部楼层
华为这UCM技术就像给AI推理装了个智能收纳盒 分级管KV Cache数据 直接把推理上下文窗口撑大 我看行 比等HBM降价靠谱多了
回复 支持 反对

使用道具 举报

  • 打卡等级:已臻大成
  • 打卡总天数:411
发表于 2025-8-12 16:31 | 显示全部楼层
通过非摩尔补摩尔,数学补物理,软件补硬件,等系统工程方法创新,解决AI国产化性能不足的问题。
回复 支持 反对

使用道具 举报

  • 打卡等级:已臻大成
  • 打卡总天数:411
发表于 2025-8-12 17:01 | 显示全部楼层
攀登科技高峰,解决卡脖子问题,还得看华为。华为牛逼!
回复 支持 反对

使用道具 举报

  • 打卡等级:已臻大成
  • 打卡总天数:411
发表于 2025-8-12 17:42 | 显示全部楼层
我要么不买,要买的话贵我也要买华为的。要不然我们后代永远只能用美国加价的阉割版物品。你们说我哈不哈?
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 注册

本版积分规则

文字版|手机版|小黑屋|RSS|举报不良信息|精睿论坛 ( 鄂ICP备07005250号-1 )|网站地图

GMT+8, 2025-9-14 18:22 , Processed in 0.219940 second(s), 7 queries , Redis On.

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表