找回密码
 注册

QQ登录

只需一步,快速开始

搜索
查看: 26|回复: 5

[科技新闻] 华为,正式发布!计划于9月开源

[复制链接]
  • 打卡等级:已臻大成
  • 打卡总天数:411
发表于 2025-8-12 17:49 | 显示全部楼层 |阅读模式

马上注册,查看更多内容,享用更多功能,让你轻松玩转社区。

您需要 登录 才可以下载或查看,没有账号?注册

×
每经编辑:张锦河
8月12日,华为正式发布AI推理创新技术UCM(推理记忆数据管理器)。据了解,作为一款以KV Cache为中心的推理加速套件,UCM融合了多类型缓存加速算法工具,分级管理推理过程中产生的KV Cache记忆数据,可扩大推理上下文窗口,实现高吞吐、低时延的推理体验,降低每Token推理成本。该技术已率先在中国银联“客户之声”“营销策划”“办公助手”三大业务场景中,开展智慧金融AI推理加速应用试点,并已取得成果。
华为计划于2025年9月正式开源UCM,届时将在魔擎社区首发,后续逐步贡献给业界主流推理引擎社区,并共享给业内所有Share Everything(共享架构)存储厂商和生态伙伴。

1.webp

图片来源:每日经济新闻 资料图

据悉,UCM可根据记忆热度在HBM、DRAM、SSD等存储介质中实现按需流动,同时融合多种稀疏注意力算法实现存算深度协同,使长序列场景下TPS(每秒处理token数)提升2至22倍,从而降低每个Token的推理成本。
Token是AI模型中的基本数据单位。在训练过程中,AI大模型会学习标记Token之间的关系,从而执行推理并生成准确、相关的输出。
数据显示,国外主流AI大模型的单用户输出速度已进入200 Tokens/s区间(时延5ms),而我国主流AI大模型的单用户输出速度普遍小于60 Tokens/s(时延50至100ms)。
每日经济新闻综合自公开信息
每日经济新闻
  • 打卡等级:已臻大成
  • 打卡总天数:411
发表于 2025-8-12 18:36 | 显示全部楼层
开源后能提升国产模型速度吗?
回复 支持 反对

使用道具 举报

  • 打卡等级:已臻大成
  • 打卡总天数:411
发表于 2025-8-12 18:36 | 显示全部楼层
说UCM能降推理成本挺吸引人,但HBM到SSD数据流动那块,实际部署时延迟抖动怕不好控制,我家路由器切换网络都卡顿
回复 支持 反对

使用道具 举报

  • 打卡等级:已臻大成
  • 打卡总天数:411
发表于 2025-8-13 00:00 | 显示全部楼层
自主可控是第一位  
回复 支持 反对

使用道具 举报

  • 打卡等级:已臻大成
  • 打卡总天数:411
发表于 2025-8-13 02:45 | 显示全部楼层
加油!中国华为技术有限公司和华为海思芯片设计公司!加油![烟花][万众一心]
回复 支持 反对

使用道具 举报

  • 打卡等级:已臻大成
  • 打卡总天数:411
发表于 2025-8-13 07:46 | 显示全部楼层
系统是不会开源的。
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 注册

本版积分规则

文字版|手机版|小黑屋|RSS|举报不良信息|精睿论坛 ( 鄂ICP备07005250号-1 )|网站地图

GMT+8, 2025-9-14 18:21 , Processed in 0.202340 second(s), 8 queries , Redis On.

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表