AI Agent背后的存储难题：HBM、PIM、CXL及新材料，谁能率先破局？

oppledr · 发表于 2026-7-3 04:47

马上注册，查看更多内容，享用更多功能，让你轻松玩转社区。

您需要登录才可以下载或查看，没有账号？注册

×

作者声明：该图片由AI生成

【摘要】2026年3月，NVIDIA在GTC上把一个过去并不站在聚光灯下的环节推到台前：存储。

其发布了BlueField-4 STX架构，面向Agentic AI，也就是能够连续推理、调用工具、读取数据、完成复杂任务的AI系统。

这个变化很微妙。

过去两年，AI产业最热的叙事是大模型和GPU。训练大模型需要吞吐、集群以及海量GPU。但随着AI从“回答问题”走向“执行任务”，推理正在变成更高频、更持续的负载。

一个会写文章的AI，只需要生成一次文本。一个会做研究、写代码、查资料、改方案的Agent，可能要连续调用模型几十次，还要保存历史上下文、工具结果、文件内容和中间推理状态。

这些内容，最后都会落到存储和内存系统里。算力产业的竞争，正在扩展到谁能让数据更快、更便宜、更低功耗地抵达GPU。

图片来源：NVIDIA官网

以下为正文：

01

推理负载飙升

早期，由于基座还未夯实，整个AI的基础还处于开发和积累阶段，因此市场更关注训练。训练决定模型能力，训练集群决定参数规模，GPU决定谁能跑出更强模型。

随着大量用户的涌入，传统的“Q&A”模式训练为AI积累了大量的底层数据。进入2025年后，AI产业的重心开始明显向推理倾斜。根据McKinsey预计，到2030年，推理将超过训练，成为AI数据中心的主导型负载，并占全球数据中心总需求约30%-40%。

随之而来的，用户每一次提问，企业每一次调用API，智能体每一次执行任务，都会产生推理成本。大模型真正进入应用层后，推理会成为云厂商和模型公司的长期支出项。

尤其是Agentic AI出现后，推理系统需要处理更长的上下文、更复杂的工具链和更多的历史状态。模型不仅要“记住”前面发生了什么，还要在推理过程中通过保存KV Cache（键值缓存）持久化存储历史信息来避免重复计算。

KV Cache可以理解为模型的“临时记忆”。它保存了历史token对应的键和值，让模型在生成下一个token时不用从头计算。它的本质是一种“以空间换时间”的策略，因此上下文越长，KV Cache占用的显存和内存就越大。

2025年发表于Nature Computational Science的研究《Analog in-memory computing attention mechanism for fast and energy-efficient large language models》也指出，在生成式Transformer中，每生成一个token，GPU都需要把KV Cache从高带宽内存加载到片上缓存中。随着序列长度变长，KV Cache往往远大于片上缓存容量，延迟和能耗压力随之放大。

于是“存储墙”由此诞生。

过去，存储更像后台配角。它只负责保存数据，用户往往只会和处理器产生直接的互动。现在，存储开始影响token输出速度、GPU利用率、推理成本和AI产品体验。

对模型公司和云厂商来说，缓解“存储墙”，就意味着推理单位成本有继续下降的机会。

这也是为什么NVIDIA会在2026年把BlueField-4 STX推到台前。该架构主打面向Agentic AI的上下文记忆层，试图把数据摄取、KV Cache管理和存储访问做得更贴近推理负载。

按照NVIDIA的说法，BlueField-4 STX可带来最高5倍token吞吐、最高4倍能效提升和2倍数据摄取速度（相比传统存储方案）。

02

HBM、PIM、CXL如何拆解存储墙

面对AI推理时代的存储瓶颈，在芯片设计端和制造代工端的共同思考下，目前产业主要沿三条路径推进。

HBM（High Bandwidth Memory），高带宽内存，把更高带宽的内存放到GPU或AI加速器旁边，通过减少物理传输距离并增加数据传输的宽度，让数据更快抵达计算芯片。

PIM（Processing-in-Memory），存内计算，把一部分计算单元嵌入内存内部或直接外围电路，让部分数据就近完成初步运算，从而减少数据在内存和计算单元之间来回搬运。

CXL（Compute Express Link），一种基于PCIe物理层的高速互连协议，通过智能调度的方式，重点解决CPU、GPU、加速器和扩展内存之间的连接与资源调度问题。

三条路线解决的问题的方式不同，导致最终的落地节奏和困境也各不相同。

HBM：最确定，走的最早，也最昂贵。

AI芯片需要不断从内存读取模型权重和KV Cache。普通DRAM很难满足高端GPU的带宽需求，而HBM通过3D堆叠、TSV和先进封装，把高带宽内存直接放在计算芯片旁边，让数据离GPU更近。

这也是HBM成为NVIDIA、AMD、Google TPU等高端AI平台标配的原因。

进入2026年，HBM4已经进入更明确的产业节奏。Micron在2026年3月宣布，面向NVIDIA Vera Rubin平台的36GB 12层堆叠HBM4已进入量产，单堆带宽超过2.8TB/s，相比HBM3E带宽提升2.3倍，能效提升超过20%。

国内，长鑫存储是HBM赛道的绝对主力。根据中关村在线，2025年9月，其HBM2已进入客户送样测试阶段；HBM3的研发同步推进，预计在2026-2027年完成技术攻关。

通富微电作为封测厂的代表，深度参与了HBM先进封装技术研发。其南通工厂建成后将成为国内最先进的2.5D/3D先进封装基地之一，重点面向HBM、GPU/AI加速器和Chiplet等高密度互连场景。

但HBM的困境也越来越清楚。

首先是成本。HBM不是普通存储颗粒，数千个硅通孔（TSV）和微凸点需要精准对位连接,并且伴随着堆叠层数的激增。为了保证良率的前提下，代工厂需要引入大量的特定工艺设备，进而增加成本开支。

其次是产能。由于工艺复杂程度和工艺栈点的增多，整个生产过程对比传统芯片制造会加入大量的过程控制节点，以保证产品良率，但也延长了生产周期。伴随AI需求高涨后，HBM的产能成为整个AI芯片产业链的关键变量。

最后是散热。堆叠层数越高，堆栈中产生的热量需要穿过上下多层芯片才能散发，会导致中间堆叠层的温度显著高于边缘，进而引发数据错误或降频；功耗密度越大，高功耗逻辑芯片也会更容易把热量反向传导给存储层，导致热管理难度进一步升高。

所以，HBM虽然是目前确定性最高，成熟度最高的技术路线。不管是海外的SK海力士、三星和美光，还是国内的长鑫存储、通富微电、长电科技等一众如雷贯耳的企业站在资本和营收的浪尖。

但它受限于物理问题，很难真正成为低成本推理的万能答案。即便它适合现在高端训练和高端推理集群，但在面对未来更大规模、更分散、更高并发的推理场景，还有很多问题需要通过长期迭代和革新才能长久的立于不败之地。

PIM：把一部分计算和内存进行“合租”。

传统架构下，数据要在存储、内存和计算单元之间来回搬运。很多时候，能耗并不只花在计算本身，也花在数据移动上。

PIM是通过把一部分计算单元放进内存附近，甚至放进内存内部。

三星早在HBM-PIM方案中就提出，通过每个存储区都配备可编程的计算单元，让部分初级运算在内存侧完成，不仅减少数据搬运，同时将能耗降低70%以上。

近年来，PIM研究开始更直接对准LLM推理，尤其是decode阶段的memory-bound问题。所谓memory-bound，就是性能主要受内存访问限制，而不是受计算单元本身限制。

在大模型推理中，部分成熟的PIM方案在设计上考虑了向下兼容性，无需对现有的硬件或软件进行重大更改即可实现加速。

但PIM的落地难点同样明显。

首先，在PIM环境中，计算发生在内存内部且直接操作物理地址，如何在不引入过多功耗和计算能力的情况下，合理组织操作以最大化利用其并行能力，是一大难题。

其次，并非所有应用都能从PIM中获益。在芯片设计阶段就必须进行深度的代码分析，需要像“挑出最适合流水线加工的零件”一样，如果不匹配，PIM不仅无法加速，反而可能成为拖累。

最后，在原本存储的内存模块中增加大量计算元件，必然会增加内存子系统的整体功耗和发热量。设计者还必须在计算与存储资源之间精心权衡。

CXL的思路更偏系统层。

HBM让数据贴近GPU，PIM让计算靠近内存。这些都是在晶圆制造上同物理极限进行斗争。

而CXL则不同，它跳出单颗芯片的概念，从宏观的“系统架构、协议标准与外部互连空间”上进行重构。

传统服务器的内存配置比较固定。每台机器有自己的CPU、GPU、DRAM和本地存储。资源一旦绑定，利用率就受限。

CXL 则是从协议层面对系统进行改造。它在单一接口上支持三种协议。这三种协议结合，让分散在数据中心各处的 CPU、GPU、内存，在逻辑上融合成了一块巨大的超级电路，彻底打破了传统主机以 CPU 为中心的封闭格局。

由于AI推理负载又很不稳定。不同请求的上下文长度、调用次数和并发量差异很大。按峰值配置本地内存，成本太高；配置不足，又会拖慢推理。

CXL的价值就在这里。

它可以把CPU、加速器和扩展内存连接起来，让系统实现内存扩展、内存池化和共享。CXL Consortium已经公布CXL 4.0，带宽从64GT/s提升到128GT/s，并加入bundled ports和更强的内存RAS能力。

同时，企业端也已经开始布局。

三星早在2021年就发布CXL DRAM原型，2022年推出512GB CXL DRAM，2023年进一步发布支持2.0的CXL DRAM，并把memory pooling作为重要方向。

Astera Labs的Leo CXL Smart Memory Controller主打内存扩展和内存池化，用于解决云服务器容量和带宽瓶颈。到 2025年，Leo已进入Azure M-series虚拟机预览场景。

国内，2025年2月，阿里云对外预发布了基于CXL Switch内存池化的PolarDB数据库专属机型，把CXL内存池引入数据库三层解耦架构中，用来打破单机内存容量和成本约束。同年6月，PolarDB围绕CXL Switch分布式内存池的论文在 SIGMOD 2025获得工业赛道最佳论文奖，阿里云随后称该架构已经应用为PolarDB DMP功能，并部署在PolarDB的计算、内存、存储三层解耦架构中。

但CXL也同样存在它的问题。不同于微观结构上的挑战，它的问题集中在物理空间枷锁和商业部署的实际性问题。

首先，由于是在更大的物理空间内进行系统级的资源调度，数据的传输需要经过协议转换、控制器以及物理链路传输，其访问延迟显著高于本地原生DRAM。

其次，随着数据中心规模扩大，传统的铜缆连接存在信号衰减严重，极大地限制了CXL的部署范围和机柜间扩展能力。即便目前通过光互连的解决方案进行弥补和迭代，也只是把问题的皮球从自己手里抛到其他领域去等待解决。

最后，区别于HBM和PIM是设计公司和代工工厂之间的点对点协同，甚至部分IDM体量的公司只是内部协同。CXL的落地不是单一厂商能够完成的，而是一场产业链的漫长的协同过程。因为创始之初，就是由英特尔牵头、联合业界多家厂商共同制定的解决方案。

03

新材料能否成为第四极？

HBM、PIM、CXL主要围绕现有存储体系做增强。更激进的方向，是从材料和器件底层改变存储方式。

这就是“第四极”的想象力来源。

目前被讨论较多的新型存储材料和器件包括PCM、ReRAM、MRAM、FeFET，以及一些面向模拟计算和存内计算的新型gain-cell架构。

它们的共同目标，是缓解传统冯·诺依曼架构下的数据搬运问题。

PCM，相变存储，利用材料在不同结构状态下的电阻差异存储信息。它适合做非易失存储和模拟计算探索。IBM等机构此前曾展示基于相变存储器的模拟AI芯片，证明这一路线在低功耗AI推理上有潜力。

ReRAM，阻变存储，利用电阻切换实现存储。它适合交叉阵列结构，可以把神经网络里的矩阵运算映射到物理电导计算中。理论上，这会显著降低数据移动和能耗。

MRAM，磁阻存储，特点是速度快、耐久性好、非易失。它更适合先从嵌入式存储、缓存和边缘AI切入。对于数据中心高端AI推理，MRAM暂时更像补充选项。

FeFET，铁电场效应晶体管，优势在于低功耗和CMOS兼容潜力。它常被放在超低功耗存内计算、边缘AI和嵌入式AI场景中讨论。但铁电材料的可靠性、保持特性和规模制造仍需要验证。

新型存储器件在LLM推理中极具潜力。但“第四极”和“主流”之间，还有很长距离。

进入AI数据中心，至少需要跨过三道门槛。

第一，器件一致性。AI推理对精度敏感，模拟计算和电阻器件的噪声、漂移、非线性都会影响结果；第二，制造良率。实验室阵列和大规模量产芯片之间，差距很大；第三，软件生态。新材料如果不能被编译器、模型框架和硬件调度系统调用，很难形成商业闭环。

因此，新材料作为第四极，最有可能先在边缘AI、低功耗推理、模拟加速器、片上存储和专用AI芯片中落地。等工艺、可靠性和生态成熟后，才有机会进入更大规模的数据中心市场。

04

尾声

AI的上半场，目光聚焦在GPU。

这是合理的。没有足够的算力，就没有足够大的模型。

但当大模型从实验室走向应用，成本结构会慢慢变样。训练决定模型能力的上限，推理决定产品能不能长期跑下去。

这时，存储的位置开始前移。

HBM负责给高端GPU喂数据。PIM试图减少数据搬运。CXL把内存资源变成可以调度的池子。新材料则把问题推到更底层，尝试从器件本身改变存储和计算的关系。

这些路线不会简单替代彼此。

更可能出现的是分层共存：最热的数据留在HBM，扩展数据进入CXL，部分访存密集任务交给PIM，新材料先在低功耗和专用场景里打开空间。

AI基础设施的竞争，正在演变为以存内计算为代表的低功耗硬件架构与模型优化能力的综合较量。

作者声明：个人观点，仅供参考

cg0071 · 发表于 2026-7-3 09:02

感谢分享

yzszh64 · 发表于 2026-7-3 09:49

谢谢分享。

com2 · 发表于 2026-7-3 09:53

谢谢楼主分享！

yvsi · 发表于 2026-7-3 10:34

睇一睇科技新闻

账号		自动登录	找回密码
密码			注册

[科技新闻] AI Agent背后的存储难题：HBM、PIM、CXL及新材料，谁能率先破局？

马上注册，查看更多内容，享用更多功能，让你轻松玩转社区。

浏览过的版块