马上注册,查看更多内容,享用更多功能,让你轻松玩转社区。
您需要 登录 才可以下载或查看,没有账号?注册
×
智猩猩AI整理
编辑:发发
现代 LLM 应用需反复处理包含共享文档或代码片段的长提示历史,这给键值(KV)缓存带来巨大压力。KV 缓存必须在有限内存中运行,同时维持高吞吐量和低延迟。前缀缓存通过复用先前处理过的 token 的 KV 缓存部分降低了此类开销,但受限于严格的前缀匹配。位置无关缓存(Position Independent Caching,PIC)支持片段级别的任意位置复用,但需要选择性重计算和位置编码(PE)调整。然而,由于这些操作因查询而异,相同片段的 KV 在不同请求中会出现差异;此外,缺乏页面对齐导致片段 KV 在内存中的布局不一致,无法实现页面共享。这些问题导致即使大量请求复用相同内容,高带宽内存(HBM)的节省效果也十分有限。
为应对上述挑战,华为提出了一种内存高效型位置无关缓存技术MEPIC,支持跨位置、跨请求、跨批次的片段 KV 复用。MEPIC 将片段 KV 与分页存储对齐,将重计算从 token 级迁移至块级(仅首块与请求相关),通过注意力内核中的旋转位置编码(RoPE)融合移除位置编码,使剩余块可完全共享。这些技术消除了 HBM 中大部分重复的片段 KV,在延迟和准确率与现有最优 PIC 方法相当的前提下,将 HBM 使用率降低高达 2 倍,长提示场景下更是降低高达 5 倍,且无需对模型进行任何修改。
- 论文标题:
MEPIC: Memory Efffcient Position Independent Caching for LLM Serving
- 论文链接:
https://arxiv.org/pdf/2512.16822
01
方法
图1:PIC 算法对比。虚线以上的区域对应编译(compile)阶段,虚线以下的区域对应链接(link)阶段。朴素算法(Naive Algorithm)不重新计算任何 token,而完全重计算算法(Fully Recompute Algorithm)则重计算所有 token(以更深的颜色高亮显示)。其余四种 PIC 算法包括 KVLink、CacheBlend、EPIC 和 MEPIC。MEPIC 支持跨请求的 HBM 重用,从而降低 HBM 内存占用,提升系统吞吐量。
(1)块感知的 HBM KV 管理
图2:MEPIC引入的调度组件用于块感知的KV管理
研究团队引入了一个块缓存协调器,在共享的 HBM 池中与 vLLM 的前缀缓存协同管理规范化的块页面,从而在内存压力下实现协调的分配、重用和驱逐。采用确定性页对齐的块实例化方式,确保相同的逻辑块映射到相同的 HBM 页面,并采用与 LMCache 集成的惰性 LRU 驱逐策略(lazy LRU-based eviction integrated),为非驻留块提供远程持久化层(CPU/磁盘)支持。
(2)通过融合 RoPE 注意力实现位置无关的 KV 缓存
图3:算法1总结了调度路径的控制逻辑,突出了这些决策的顺序以及在KV块分配之前执行的准入检查
研究团队采用一种无位置编码(NoPE)的 KV 格式,其中注意力状态在存储时不预先应用旋转编码;取而代之的是,在执行时通过一个融合的 RoPE 注意力核即时注入位置信息。该设计将缓存的 KV 与绝对 token 位置解耦,使得无论块在提示中的哪个位置出现,都能实现确定性的块重用。
(3)系统集成
研究团队将 MEPIC 集成到 vLLM + LMCache 服务栈中,证明块级 HBM 重用能够以极少的引擎改动插入生产系统,同时利用 LMCache 的持久化层作为远程块存储。
图4:集成于vLLM/LMCache服务栈的MEPIC系统概览。调度路径在vLLM的分页KV存储中构建一个块感知(chunk-aware)的KV放置方案,计算路径则遵循该方案,对必要token进行重计算,并通过融合RoPE技术执行注意力运算。
02
评估
(1)工作负载特征
表1:工作负载特征摘要
实验使用四个问答和阅读理解数据集:SQuAD、NewsQA、NarrativeQA和emrQA,复用率从 61.4% 到 98.2%,覆盖从 “中等复用”(NewsQA)到 “几乎全复用”(emrQA)的场景,确保评估的全面性。
(2)基线对比结果
表2:MEPIC 与基线的核心性能对比
表 2 对比了MEPIC与 EPIC、CacheBlend 在四个数据集上的这些指标。尽管引入了选择性重计算和 NoPE KV 缓存,MEPIC仍实现了与基线相当或略高的准确率。通过避免不必要的 KV 存储,显著降低了内存消耗,所有数据集的峰值HBM使用降低高达2倍,延迟改善明显。
图5:对比 CacheBlend、EPIC 和 MEPIC 在各数据集上的 HBM 占用变化
如图5所示,HBM 消耗随时间变化的详细视图展示了MEPIC在所有数据集上均保持更低的HBM消耗,凸显了块感知KV重用的有效性。
(3)不同 QPS 下的性能表现
图6:CacheBlend,EPIC和MEPIC的HBM使用和跨QPS的端到端延迟
如图6所示,MEPIC的片段感知 KV 管理显著降低了峰值 HBM 使用率(相比 CacheBlend 降低 5.74 倍,相比 EPIC 降低 5.25 倍)。所有 QPS 水平下的延迟也持续更低 ,比 EPIC 低 9.1%,比 CacheBlend 低 11.48%。
这些结果表明,MEPIC在保持低 TTFT 和生产级负载下稳健性能的同时,提高了内存效率。
(4)不同上下文长度下的性能表现
图7:Cache Blend、EPIC和MEPIC的HBM使用量和端到端延迟随着上下文长度的增加而增加
如图7所示,MEPIC 在所有上下文大小下均实现了显著更低的 HBM 消耗。当上下文长度从2个块增加到16个块时,MEPIC保持内存使用低于40%,而基线方法快速饱和,HBM占用降低2.97-5.21倍。延迟呈现类似趋势,MEPIC 在所有上下文大小下均维持一致的低端到端延迟。 |