HBM占用直降5倍！华为提出内存高效型位置无关缓存技术MEPIC，无需对LLM进行任何修改

77898876 · 发表于 2026-1-24 09:28

马上注册，查看更多内容，享用更多功能，让你轻松玩转社区。

您需要登录才可以下载或查看，没有账号？注册

×

智猩猩AI整理
编辑：发发

现代 LLM 应用需反复处理包含共享文档或代码片段的长提示历史，这给键值（KV）缓存带来巨大压力。KV 缓存必须在有限内存中运行，同时维持高吞吐量和低延迟。前缀缓存通过复用先前处理过的 token 的 KV 缓存部分降低了此类开销，但受限于严格的前缀匹配。位置无关缓存（Position Independent Caching，PIC）支持片段级别的任意位置复用，但需要选择性重计算和位置编码（PE）调整。然而，由于这些操作因查询而异，相同片段的 KV 在不同请求中会出现差异；此外，缺乏页面对齐导致片段 KV 在内存中的布局不一致，无法实现页面共享。这些问题导致即使大量请求复用相同内容，高带宽内存（HBM）的节省效果也十分有限。

为应对上述挑战，华为提出了一种内存高效型位置无关缓存技术MEPIC，支持跨位置、跨请求、跨批次的片段 KV 复用。MEPIC 将片段 KV 与分页存储对齐，将重计算从 token 级迁移至块级（仅首块与请求相关），通过注意力内核中的旋转位置编码（RoPE）融合移除位置编码，使剩余块可完全共享。这些技术消除了 HBM 中大部分重复的片段 KV，在延迟和准确率与现有最优 PIC 方法相当的前提下，将 HBM 使用率降低高达 2 倍，长提示场景下更是降低高达 5 倍，且无需对模型进行任何修改。

论文标题：
MEPIC: Memory Efffcient Position Independent Caching for LLM Serving
论文链接：
https://arxiv.org/pdf/2512.16822

01
方法

图1：PIC 算法对比。虚线以上的区域对应编译（compile）阶段，虚线以下的区域对应链接（link）阶段。朴素算法（Naive Algorithm）不重新计算任何 token，而完全重计算算法（Fully Recompute Algorithm）则重计算所有 token（以更深的颜色高亮显示）。其余四种 PIC 算法包括 KVLink、CacheBlend、EPIC 和 MEPIC。MEPIC 支持跨请求的 HBM 重用，从而降低 HBM 内存占用，提升系统吞吐量。

（1）块感知的 HBM KV 管理

图2：MEPIC引入的调度组件用于块感知的KV管理

研究团队引入了一个块缓存协调器，在共享的 HBM 池中与 vLLM 的前缀缓存协同管理规范化的块页面，从而在内存压力下实现协调的分配、重用和驱逐。采用确定性页对齐的块实例化方式，确保相同的逻辑块映射到相同的 HBM 页面，并采用与 LMCache 集成的惰性 LRU 驱逐策略（lazy LRU-based eviction integrated），为非驻留块提供远程持久化层（CPU/磁盘）支持。

（2）通过融合 RoPE 注意力实现位置无关的 KV 缓存

图3：算法1总结了调度路径的控制逻辑，突出了这些决策的顺序以及在KV块分配之前执行的准入检查

研究团队采用一种无位置编码（NoPE）的 KV 格式，其中注意力状态在存储时不预先应用旋转编码；取而代之的是，在执行时通过一个融合的 RoPE 注意力核即时注入位置信息。该设计将缓存的 KV 与绝对 token 位置解耦，使得无论块在提示中的哪个位置出现，都能实现确定性的块重用。

（3）系统集成

研究团队将 MEPIC 集成到 vLLM + LMCache 服务栈中，证明块级 HBM 重用能够以极少的引擎改动插入生产系统，同时利用 LMCache 的持久化层作为远程块存储。

图4：集成于vLLM/LMCache服务栈的MEPIC系统概览。调度路径在vLLM的分页KV存储中构建一个块感知（chunk-aware）的KV放置方案，计算路径则遵循该方案，对必要token进行重计算，并通过融合RoPE技术执行注意力运算。

02
评估

（1）工作负载特征

表1：工作负载特征摘要

实验使用四个问答和阅读理解数据集：SQuAD、NewsQA、NarrativeQA和emrQA，复用率从 61.4% 到 98.2%，覆盖从 “中等复用”（NewsQA）到 “几乎全复用”（emrQA）的场景，确保评估的全面性。

（2）基线对比结果

表2：MEPIC 与基线的核心性能对比

表 2 对比了MEPIC与 EPIC、CacheBlend 在四个数据集上的这些指标。尽管引入了选择性重计算和 NoPE KV 缓存，MEPIC仍实现了与基线相当或略高的准确率。通过避免不必要的 KV 存储，显著降低了内存消耗，所有数据集的峰值HBM使用降低高达2倍，延迟改善明显。

图5：对比 CacheBlend、EPIC 和 MEPIC 在各数据集上的 HBM 占用变化

如图5所示，HBM 消耗随时间变化的详细视图展示了MEPIC在所有数据集上均保持更低的HBM消耗，凸显了块感知KV重用的有效性。

（3）不同 QPS 下的性能表现

图6：CacheBlend，EPIC和MEPIC的HBM使用和跨QPS的端到端延迟

如图6所示，MEPIC的片段感知 KV 管理显著降低了峰值 HBM 使用率（相比 CacheBlend 降低 5.74 倍，相比 EPIC 降低 5.25 倍）。所有 QPS 水平下的延迟也持续更低 ，比 EPIC 低 9.1%，比 CacheBlend 低 11.48%。

这些结果表明，MEPIC在保持低 TTFT 和生产级负载下稳健性能的同时，提高了内存效率。

（4）不同上下文长度下的性能表现

图7：Cache Blend、EPIC和MEPIC的HBM使用量和端到端延迟随着上下文长度的增加而增加

如图7所示，MEPIC 在所有上下文大小下均实现了显著更低的 HBM 消耗。当上下文长度从2个块增加到16个块时，MEPIC保持内存使用低于40%，而基线方法快速饱和，HBM占用降低2.97-5.21倍。延迟呈现类似趋势，MEPIC 在所有上下文大小下均维持一致的低端到端延迟。

—じ☆ve人生— · 发表于 2026-1-24 11:22

华为这个MEPIC技术太牛了，就像给大语言模型装了个智能收纳盒，把重复的缓存空间压缩了5倍，相当于给数据中心省出一栋楼的服务器，这才是真·技术降本

账号		自动登录	找回密码
密码			注册

[综艺大观] HBM占用直降5倍！华为提出内存高效型位置无关缓存技术MEPIC，无需对LLM进行任何修改

马上注册，查看更多内容，享用更多功能，让你轻松玩转社区。