电费只占5%，谁在真正吃掉算力成本？

gzcom520 · 发表于 2026-3-29 12:06

马上注册，查看更多内容，享用更多功能，让你轻松玩转社区。

您需要登录才可以下载或查看，没有账号？注册

×

近期，沐曦在行业分享中披露的一组数据中心成本分析图表，引发了业内人士的广泛关注。

这张图拆了一座1GW数据中心的账——总拥有成本550亿美元，按四年折旧摊下来，GPU芯片占了250亿，供电散热110亿，网络50亿，存储40亿。电费呢？27.5亿。占比5%。
就这么一张图，把一个在圈里流传了小两年的“美好叙事”推翻了。之前总有人说，中国电价比欧美便宜，AI时代这就是我们的本钱。大模型那么耗电，电价低就是持续优势。可沐曦这张图告诉你的却是另一回事：在超大规模算力中心的成本结构里，电费在整体TCO 中占比很低，对总成本影响有限。真正的大头，是你根本绕不开的那块GPU。
01

一座550亿美元的数据中心，钱都花哪儿了
我们先把这个账算细一点。
图里的550亿美元，是基于一座1GW的数据中心做的全周期测算，周期是四年。为什么是四年？因为GPU的折旧周期就这么长，甚至很多互联网大厂实际折旧周期更短——三年甚至两年半。这不是会计上的保守处理，而是技术迭代的现实：新一代GPU出来，老一代的单位算力成本和能效比就立刻失去竞争力。
在这550亿里，GPU采购250亿，占比45%。这还只是买芯片的钱。供电和散热系统110亿，占比20%。这部分听着像是“基础设施”，但实际上一大半成本是被GPU的功耗逼出来的——一颗H100功耗700瓦，B系列下一代直奔1000瓦以上，几万张卡堆在一起，供电和散热系统的复杂程度远超传统数据中心。
网络50亿，存储40亿。这两块加起来90亿，占比16%。超大规模集群里的网络，不是咱们家里用的路由器，而是几百公里光纤、几十层交换机构成的“毛细血管网”，成本和复杂度随着GPU数量呈指数级增长。
四大硬件板块加起来450亿，占了总成本的82%。电费呢？27.5亿，占比5%。其他运维成本7.5亿，占比不到1.5%。
所以你看，电费便宜这件事，在这个账本里几乎可以忽略不计。你电价打五折，省下来的钱也就十几亿美元，在550亿的总盘子里连个水花都翻不起来。真正决定你成本高低的，是你用什么GPU、用多少GPU、怎么把这些GPU连成集群、怎么给它们供电散热——而这些，没有一样是靠“便宜”能解决的。
在AI算力的成本方程里，资源禀赋的权重远没有想象中那么高，真正起决定作用的，是技术和供应链。
02

GPU价格为什么“降不动”
那问题来了：GPU能不能降下来？如果能，是不是成本问题就解决了一大半？
答案是：能降，但短期内很难降太多，而且降价的空间不在中国手里。
一颗AI芯片的成本构成，远比一般人想象的要复杂。先说最直观的制程。目前旗舰级AI芯片清一色用4nm或5nm，台积电的N4P和N5工艺。流一次片的费用是多少？三到五亿美元起步。这不是设计费，是实实在在给代工厂的钱。而且这个成本是沉没成本——你流片失败了，钱就没了；流片成功了，良率爬坡还需要几个季度。
然后是HBM（高带宽内存）。一颗H100配80GB HBM3，光内存的成本就占到芯片总成本的40%以上。HBM这个市场有多集中？海力士一家占了大半，三星紧随其后，美光在后面追。HBM的产能扩张速度远远跟不上AI芯片的需求，所以这两年HBM一直在涨价。你GPU设计得再好，HBM拿不到货或者拿货贵，整颗芯片的成本就降不下来。
还有先进封装。现在AI芯片几乎都用CoWoS，这个技术被台积电牢牢握在手里。CoWoS产能的紧张程度，过去两年是整个AI芯片供应链的最大瓶颈。台积电扩产能的速度，直接决定了英伟达、AMD、以及所有自研AI芯片厂商的出货节奏。
这三个环节——先进制程、HBM、先进封装——加起来，占据了AI芯片BOM成本的大头，而且每一个环节都被极少数供应商垄断。本土的GPU设计公司，即使设计能力追上了，也要面对同样的供应链现实。流片要找台积电或三星（或者国内尚在追赶的先进制程产线），HBM目前基本依赖韩国厂商，先进封装也是台积电的天下。这意味着，国产GPU的物料成本，在一段时间内很难比英伟达低，甚至可能因为采购量小、议价能力弱而更高。
更关键的是，英伟达的GPU不仅仅是一颗芯片，而是一个完整的系统。从NVLink互联到InfiniBand网络，从CUDA软件栈到整个开发者生态，英伟达用了十几年时间构建了一套“软硬一体”的壁垒。你买英伟达的GPU，花的钱里很大一部分买的是“确定性”——确定能用、确定性能达标、确定能快速部署。这个“确定性”的溢价，在初期是很难避免的。
03

窗口期来了，但挑战更大
那国产GPU怎么办？是不是就没机会了？
恰恰相反。2025年到2026年这个时间窗口，可能是国产GPU这几年来最重要的机遇期。原因很简单：美国对华出口管制在不断加码。
这种压力，客观上给国产GPU打开了一个“被迫导入”的窗口。过去，国内的AI公司选择英伟达是出于性能和生态的最优解；现在，这个最优解正在被人为切断，国产GPU从“备选”变成了“必选”。
我们看到的是，2025年下半年以来，国内几家头部互联网公司和运营商都在加速部署国产算力集群。华为昇腾的910B和后续型号在一些场景下已经开始规模化落地；沐曦、壁仞、天数智芯等公司也在积极推动产品进入实际生产环境；百度昆仑、阿里平头哥的自研芯片也在内部大规模应用。
但挑战同样清晰。
第一是性能差距。国产GPU在单卡算力上正在快速追赶，但在集群效率、互联带宽、软件栈成熟度方面，与英伟达仍有差距。一个3000卡的国产集群，实际有效算力可能只有同样规模英伟达集群的60%-70%。这意味着，完成同样的训练任务，需要更多的卡、更长的周期、更复杂的并行优化——这些最终都会转化为成本。
第二是软件生态的“隐形门槛”。CUDA经过十几年积累，已经形成了一个庞大的开发者生态。算法工程师从学校里学的就是CUDA，开源社区的模型代码默认跑在CUDA上，各种算子库、调优工具、分布式框架都以CUDA为基准。国产GPU厂商现在都要做自己的软件栈——华为有CANN，沐曦有MXMACA，壁仞有BIRENSUPA——但生态建设需要时间和投入，而且需要用户愿意“多走一步”。
第三是供应链的“天花板”。国产GPU的制造目前主要依赖国内先进制程产线，而国内产线在产能、良率、成熟度方面与台积电还有差距。HBM方面，国内目前还没有能够量产HBM2E以上产品的厂商，这一块短期内仍然依赖韩国供应商。这意味着，即使国产GPU设计上去了，供应链的自主可控程度仍然是有限的。
回到沐曦那张成本拆解图，其实还有一个隐藏的信息：成本优化的空间，不仅仅在GPU本身。供电散热占110亿，占比20%。如果能把这部分压缩30%，那就是33亿美元的节省——比电费总额还多。怎么做？液冷是目前最确定的路径。
传统风冷数据中心PUE在1.4-1.5之间，液冷可以做到1.1以下。这意味着不仅电费降低，更重要的是供配电系统和散热系统的初始投资可以大幅缩减。随着GPU功耗突破1000瓦，风冷已经接近物理极限，液冷正在从“可选”变成“必选”。2025年下半年以来，国内几大运营商和云厂商新建的智算中心，液冷方案的渗透率明显提升。这个趋势的直接结果就是，供电散热在TCO中的占比有望从20%降至15%甚至更低。
网络占50亿，占比9%。超大规模集群中，网络成本随着GPU数量增加而超线性增长。为什么？因为GPU之间需要高速互联，而传统的以太网在解决“大象流”和“多打一”问题上的效率不高。英伟达的NVLink和InfiniBand之所以能形成壁垒，很大程度上就是因为它们在集群互联上的优势。但2025年，一个值得关注的趋势是，基于以太网的超大规模互联方案正在成熟，Ultra Ethernet Consortium（UEC）的推进让业界看到了降低网络成本的希望。如果这一路径走通，网络成本在TCO中的占比有望进一步压缩。
还有存储占40亿，占比7%。AI训练对存储的要求是海量小文件读写和高带宽吞吐，传统的分布式文件系统在这种场景下效率不高。2025年以来，国内几家存储厂商在AI原生存储上的探索值得关注——通过软硬协同优化，可以在同等性能下降低存储节点的配置需求，从而压缩成本。
但这些系统级的优化，有一个共同的底层逻辑：它们都需要对GPU集群有深入的理解和掌控能力。不是简单地买一堆GPU堆在一起，而是从芯片到系统、从硬件到软件的垂直整合。
这正是为什么我们看到，无论是英伟达还是谷歌、亚马逊，都在往“云-芯-端”一体化的方向走。谷歌的TPU从一开始就是为自家的深度学习框架TensorFlow设计的；亚马逊的Trainium和Inferentia深度绑定AWS的服务；微软虽然大量采购英伟达的GPU，但同时也在自研芯片，并与英伟达在系统层面深度合作。
中国的情况也类似。华为昇腾的优势之一，就是它同时拥有芯片设计能力和通信技术积累，能够在芯片互联和集群组网层面做深度优化。阿里平头哥、百度昆仑与各自的云业务深度协同，也是同样的逻辑。
04

没有捷径可走
回看那张图，它的价值其实不只是拆解了成本结构，更是拆解了一种思维惯性。
“靠电价优势就能在 AI 算力赛道实现突破”——这个说法之所以有市场，是因为它符合一种“资源换优势”的旧逻辑。在过去的一些产业里，确实靠资源禀赋实现了追赶。但AI算力这个赛道，本质上是一个技术密集型、资本密集型、系统密集型的产业，资源禀赋的权重被大幅稀释了。
真正的竞争优势来自哪里？来自对GPU核心技术的突破能力，来自对先进封装和HBM等关键环节的供应链掌控力，来自软件生态的长期积累，来自系统级架构的创新能力，也来自商业模式和运营效率的持续进化。
这些，没有一样是容易的，也没有一样是靠“便宜”能换来的。
过去两三年，国内智算中心建设发展迅速，不少项目在投资思路上延续了传统IDC的模式——以园区建设、硬件部署、算力租赁为核心。但AI算力与传统IDC的商业逻辑存在明显差异：GPU硬件迭代快、折旧周期短，项目收益高度依赖算力利用率。如果仅将GPU作为标准化租赁资源，缺乏底层算法优化、集群调度与运营能力，高昂的硬件投入可能难以有效转化为持续稳定的收益，也会带来较大的资产压力。
好在，产业界正在回归理性。2025年下半年以来，我们看到的是，无论是互联网大厂还是运营商，在算力投资上都更加务实——不再是单纯的“堆卡”，而是更关注实际可用的有效算力，更关注单位算力的成本，更关注软硬协同的优化空间。
没有捷径可走。这句话听起来老套，但在AI算力这个赛道上，它依然是残酷而真实的底层逻辑。

922b3eb6 · 发表于 2026-3-29 12:30

AI算力竞争核心在技术供应链，电价优势只是伪命题

hnn · 发表于 2026-3-29 12:30

专业人士表示沐曦这账算得明白，1GW数据中心GPU芯片250亿占大头，就像买房首付占大半，电费5%真不是重点，技术迭代才是王道

oppledr · 发表于 2026-3-29 12:46

电力只占5%，但没这5%，你百分之百歇菜。

weili0677 · 发表于 2026-3-29 13:02

软件生态才是隐形大坑，CUDA 根深蒂固，国产自研栈要补算子、补工具、补社区，没几年深耕，根本跑不通主流大模型

77898876 · 发表于 2026-3-29 13:12

来，电闸给他拉了

dengnan · 发表于 2026-3-29 14:17

感谢分享！

账号		自动登录	找回密码
密码			注册

[科技新闻] 电费只占5%，谁在真正吃掉算力成本？

马上注册，查看更多内容，享用更多功能，让你轻松玩转社区。

浏览过的版块