找回密码
 注册

QQ登录

只需一步,快速开始

搜索
查看: 83|回复: 1

[综艺大观] HBM占用直降5倍!华为提出内存高效型位置无关缓存技术MEPIC,无需对LLM进行任何修改

[复制链接]
  • 打卡等级:已臻大成
  • 打卡总天数:411
发表于 2026-1-24 09:28 | 显示全部楼层 |阅读模式

马上注册,查看更多内容,享用更多功能,让你轻松玩转社区。

您需要 登录 才可以下载或查看,没有账号?注册

×
智猩猩AI整理
编辑:发发

现代 LLM 应用需反复处理包含共享文档或代码片段的长提示历史,这给键值(KV)缓存带来巨大压力。KV 缓存必须在有限内存中运行,同时维持高吞吐量和低延迟。前缀缓存通过复用先前处理过的 token 的 KV 缓存部分降低了此类开销,但受限于严格的前缀匹配。位置无关缓存(Position Independent Caching,PIC)支持片段级别的任意位置复用,但需要选择性重计算和位置编码(PE)调整。然而,由于这些操作因查询而异,相同片段的 KV 在不同请求中会出现差异;此外,缺乏页面对齐导致片段 KV 在内存中的布局不一致,无法实现页面共享。这些问题导致即使大量请求复用相同内容,高带宽内存(HBM)的节省效果也十分有限。


为应对上述挑战,华为提出了一种内存高效型位置无关缓存技术MEPIC,支持跨位置、跨请求、跨批次的片段 KV 复用MEPIC 将片段 KV 与分页存储对齐,将重计算从 token 级迁移至块级(仅首块与请求相关),通过注意力内核中的旋转位置编码(RoPE)融合移除位置编码,使剩余块可完全共享。这些技术消除了 HBM 中大部分重复的片段 KV,在延迟和准确率与现有最优 PIC 方法相当的前提下,将 HBM 使用率降低高达 2 倍,长提示场景下更是降低高达 5 倍,且无需对模型进行任何修改


1.webp


  • 论文标题:
    MEPIC: Memory Efffcient Position Independent Caching for LLM Serving  
  • 论文链接:
    https://arxiv.org/pdf/2512.16822
01
方法


2.webp

图1:PIC 算法对比。虚线以上的区域对应编译(compile)阶段,虚线以下的区域对应链接(link)阶段。朴素算法(Naive Algorithm)不重新计算任何 token,而完全重计算算法(Fully Recompute Algorithm)则重计算所有 token(以更深的颜色高亮显示)。其余四种 PIC 算法包括 KVLink、CacheBlend、EPIC 和 MEPIC。MEPIC 支持跨请求的 HBM 重用,从而降低 HBM 内存占用,提升系统吞吐量。



(1)块感知的 HBM KV 管理


3.webp

图2:MEPIC引入的调度组件用于块感知的KV管理



研究团队引入了一个块缓存协调器,在共享的 HBM 池中与 vLLM 的前缀缓存协同管理规范化的块页面,从而在内存压力下实现协调的分配、重用和驱逐。采用确定性页对齐的实例化方式,确保相同的逻辑块映射到相同的 HBM 页面,并采用与 LMCache 集成的惰性 LRU 驱逐策略(lazy LRU-based eviction integrated),为非驻留块提供远程持久化层(CPU/磁盘)支持。


(2)通过融合 RoPE 注意力实现位置无关的 KV 缓存


4.webp

图3:算法1总结了调度路径的控制逻辑,突出了这些决策的顺序以及在KV块分配之前执行的准入检查



研究团队采用一种无位置编码(NoPE)的 KV 格式,其中注意力状态在存储时不预先应用旋转编码;取而代之的是,在执行时通过一个融合的 RoPE 注意力核即时注入位置信息。该设计将缓存的 KV 与绝对 token 位置解耦,使得无论块在提示中的哪个位置出现,都能实现确定性的块重用。


(3)系统集成


研究团队将 MEPIC 集成到 vLLM + LMCache 服务栈中,证明块级 HBM 重用能够以极少的引擎改动插入生产系统,同时利用 LMCache 的持久化层作为远程块存储。
5.webp

图4:集成于vLLM/LMCache服务栈的MEPIC系统概览。调度路径在vLLM的分页KV存储中构建一个感知(chunk-aware)的KV放置方案,计算路径则遵循该方案,对必要token进行重计算,并通过融合RoPE技术执行注意力运算。



02
评估


(1)工作负载特征
表1:工作负载特征摘要

6.webp



实验使用四个问答和阅读理解数据集:SQuAD、NewsQA、NarrativeQA和emrQA,复用率从 61.4% 到 98.2%,覆盖从 “中等复用”(NewsQA)到 “几乎全复用”(emrQA)的场景,确保评估的全面性。


(2)基线对比结果


表2:MEPIC 与基线的核心性能对比

7.webp



表 2 对比了MEPIC与 EPIC、CacheBlend 在四个数据集上的这些指标。尽管引入了选择性重计算和 NoPE KV 缓存,MEPIC仍实现了与基线相当或略高的准确率。通过避免不必要的 KV 存储,著降低了内存消耗,所有数据集的峰值HBM使用降低高达2倍,延迟改善明显


8.webp

图5:对比 CacheBlend、EPIC 和 MEPIC 在各数据集上的 HBM 占用变化



如图5所示,HBM 消耗随时间变化的详细视图展示了MEPIC在所有数据集上均保持更低的HBM消耗,凸显了块感知KV重用的有效性。


(3)不同 QPS 下的性能表现


9.webp

图6:CacheBlend,EPIC和MEPIC的HBM使用和跨QPS的端到端延迟



如图6所示,MEPIC的片段感知 KV 管理著降低了峰值 HBM 使用率(相比 CacheBlend 降低 5.74 倍,相比 EPIC 降低 5.25 倍)。所有 QPS 水平下的延迟也持续更低 ,比 EPIC 低 9.1%,比 CacheBlend 低 11.48%。


这些结果表明,MEPIC在保持低 TTFT 和生产级负载下稳健性能的同时提高了内存效率


(4)不同上下文长度下的性能表现


10.webp


图7:Cache Blend、EPIC和MEPIC的HBM使用量和端到端延迟随着上下文长度的增加而增加



如图7所示,MEPIC 在所有上下文大小下均实现了显著更低的 HBM 消耗。当上下文长度从2个块增加到16个块时,MEPIC保持内存使用低于40%,而基线方法快速饱和,HBM占用降低2.97-5.21倍。延迟呈现类似趋势,MEPIC 在所有上下文大小下维持一致的低端到端延迟
  • 打卡等级:已臻大成
  • 打卡总天数:411
发表于 2026-1-24 11:22 | 显示全部楼层
华为这个MEPIC技术太牛了,就像给大语言模型装了个智能收纳盒,把重复的缓存空间压缩了5倍,相当于给数据中心省出一栋楼的服务器,这才是真·技术降本
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 注册

本版积分规则

文字版|手机版|小黑屋|RSS|举报不良信息|精睿论坛 ( 鄂ICP备07005250号-1 )|网站地图

GMT+8, 2026-1-24 15:22 , Processed in 0.125505 second(s), 5 queries , Redis On.

Powered by Discuz! X3.5

© 2001-2026 Discuz! Team.

快速回复 返回顶部 返回列表