找回密码
 注册

QQ登录

只需一步,快速开始

搜索
查看: 112|回复: 6

[科技新闻] 电费只占5%,谁在真正吃掉算力成本?

[复制链接]
  • 打卡等级:已臻大成
  • 打卡总天数:411
发表于 2026-3-29 12:06 | 显示全部楼层 |阅读模式

马上注册,查看更多内容,享用更多功能,让你轻松玩转社区。

您需要 登录 才可以下载或查看,没有账号?注册

×
1.webp


近期,沐曦在行业分享中披露的一组数据中心成本分析图表,引发了业内人士的广泛关注。
2.webp


这张图拆了一座1GW数据中心的账——总拥有成本550亿美元,按四年折旧摊下来,GPU芯片占了250亿,供电散热110亿,网络50亿,存储40亿。电费呢?27.5亿。占比5%。
就这么一张图,把一个在圈里流传了小两年的“美好叙事”推翻了。之前总有人说,中国电价比欧美便宜,AI时代这就是我们的本钱。大模型那么耗电,电价低就是持续优势。可沐曦这张图告诉你的却是另一回事:在超大规模算力中心的成本结构里,电费在整体TCO 中占比很低,对总成本影响有限。真正的大头,是你根本绕不开的那块GPU。
01

一座550亿美元的数据中心,钱都花哪儿了
我们先把这个账算细一点。
图里的550亿美元,是基于一座1GW的数据中心做的全周期测算,周期是四年。为什么是四年?因为GPU的折旧周期就这么长,甚至很多互联网大厂实际折旧周期更短——三年甚至两年半。这不是会计上的保守处理,而是技术迭代的现实:新一代GPU出来,老一代的单位算力成本和能效比就立刻失去竞争力。
在这550亿里,GPU采购250亿,占比45%。这还只是买芯片的钱。供电和散热系统110亿,占比20%。这部分听着像是“基础设施”,但实际上一大半成本是被GPU的功耗逼出来的——一颗H100功耗700瓦,B系列下一代直奔1000瓦以上,几万张卡堆在一起,供电和散热系统的复杂程度远超传统数据中心。
网络50亿,存储40亿。这两块加起来90亿,占比16%。超大规模集群里的网络,不是咱们家里用的路由器,而是几百公里光纤、几十层交换机构成的“毛细血管网”,成本和复杂度随着GPU数量呈指数级增长。
四大硬件板块加起来450亿占了总成本的82%电费呢?27.5亿,占比5%。其他运维成本7.5亿,占比不到1.5%。
所以你看,电费便宜这件事,在这个账本里几乎可以忽略不计。你电价打五折,省下来的钱也就十几亿美元,在550亿的总盘子里连个水花都翻不起来。真正决定你成本高低的,是你用什么GPU、用多少GPU、怎么把这些GPU连成集群、怎么给它们供电散热——而这些,没有一样是靠“便宜”能解决的。
在AI算力的成本方程里,资源禀赋的权重远没有想象中那么高,真正起决定作用的,是技术和供应链。
02

GPU价格为什么“降不动”
那问题来了:GPU能不能降下来?如果能,是不是成本问题就解决了一大半?
答案是:能降,但短期内很难降太多,而且降价的空间不在中国手里。
一颗AI芯片的成本构成,远比一般人想象的要复杂。先说最直观的制程。目前旗舰级AI芯片清一色用4nm或5nm,台积电的N4P和N5工艺。流一次片的费用是多少?三到五亿美元起步。这不是设计费,是实实在在给代工厂的钱。而且这个成本是沉没成本——你流片失败了,钱就没了;流片成功了,良率爬坡还需要几个季度。
然后是HBM(高带宽内存)。一颗H100配80GB HBM3,光内存的成本就占到芯片总成本的40%以上。HBM这个市场有多集中?海力士一家占了大半,三星紧随其后,美光在后面追。HBM的产能扩张速度远远跟不上AI芯片的需求,所以这两年HBM一直在涨价。你GPU设计得再好,HBM拿不到货或者拿货贵,整颗芯片的成本就降不下来。
还有先进封装。现在AI芯片几乎都用CoWoS,这个技术被台积电牢牢握在手里。CoWoS产能的紧张程度,过去两年是整个AI芯片供应链的最大瓶颈。台积电扩产能的速度,直接决定了英伟达、AMD、以及所有自研AI芯片厂商的出货节奏。
这三个环节——先进制程、HBM、先进封装——加起来,占据了AI芯片BOM成本的大头,而且每一个环节都被极少数供应商垄断。本土的GPU设计公司,即使设计能力追上了,也要面对同样的供应链现实。流片要找台积电或三星(或者国内尚在追赶的先进制程产线),HBM目前基本依赖韩国厂商,先进封装也是台积电的天下。这意味着,国产GPU的物料成本,在一段时间内很难比英伟达低,甚至可能因为采购量小、议价能力弱而更高。
更关键的是,英伟达的GPU不仅仅是一颗芯片,而是一个完整的系统。从NVLink互联到InfiniBand网络,从CUDA软件栈到整个开发者生态,英伟达用了十几年时间构建了一套“软硬一体”的壁垒。你买英伟达的GPU,花的钱里很大一部分买的是“确定性”——确定能用、确定性能达标、确定能快速部署。这个“确定性”的溢价,在初期是很难避免的。
03

窗口期来了,但挑战更大
那国产GPU怎么办?是不是就没机会了?
恰恰相反。2025年到2026年这个时间窗口,可能是国产GPU这几年来最重要的机遇期。原因很简单:美国对华出口管制在不断加码。
这种压力,客观上给国产GPU打开了一个“被迫导入”的窗口。过去,国内的AI公司选择英伟达是出于性能和生态的最优解;现在,这个最优解正在被人为切断,国产GPU从“备选”变成了“必选”。
我们看到的是,2025年下半年以来,国内几家头部互联网公司和运营商都在加速部署国产算力集群。华为昇腾的910B和后续型号在一些场景下已经开始规模化落地;沐曦、壁仞、天数智芯等公司也在积极推动产品进入实际生产环境;百度昆仑、阿里平头哥的自研芯片也在内部大规模应用。
但挑战同样清晰。
第一是性能差距。国产GPU在单卡算力上正在快速追赶,但在集群效率、互联带宽、软件栈成熟度方面,与英伟达仍有差距。一个3000卡的国产集群,实际有效算力可能只有同样规模英伟达集群的60%-70%。这意味着,完成同样的训练任务,需要更多的卡、更长的周期、更复杂的并行优化——这些最终都会转化为成本。
第二是软件生态的“隐形门槛”。CUDA经过十几年积累,已经形成了一个庞大的开发者生态。算法工程师从学校里学的就是CUDA,开源社区的模型代码默认跑在CUDA上,各种算子库、调优工具、分布式框架都以CUDA为基准。国产GPU厂商现在都要做自己的软件栈——华为有CANN,沐曦有MXMACA,壁仞有BIRENSUPA——但生态建设需要时间和投入,而且需要用户愿意“多走一步”。
第三是供应链的“天花板”。国产GPU的制造目前主要依赖国内先进制程产线,而国内产线在产能、良率、成熟度方面与台积电还有差距。HBM方面,国内目前还没有能够量产HBM2E以上产品的厂商,这一块短期内仍然依赖韩国供应商。这意味着,即使国产GPU设计上去了,供应链的自主可控程度仍然是有限的。
回到沐曦那张成本拆解图,其实还有一个隐藏的信息:成本优化的空间,不仅仅在GPU本身。供电散热占110亿,占比20%。如果能把这部分压缩30%,那就是33亿美元的节省——比电费总额还多。怎么做?液冷是目前最确定的路径。
传统风冷数据中心PUE在1.4-1.5之间,液冷可以做到1.1以下。这意味着不仅电费降低,更重要的是供配电系统和散热系统的初始投资可以大幅缩减。随着GPU功耗突破1000瓦,风冷已经接近物理极限,液冷正在从“可选”变成“必选”。2025年下半年以来,国内几大运营商和云厂商新建的智算中心,液冷方案的渗透率明显提升。这个趋势的直接结果就是,供电散热在TCO中的占比有望从20%降至15%甚至更低。
网络占50亿,占比9%。超大规模集群中,网络成本随着GPU数量增加而超线性增长。为什么?因为GPU之间需要高速互联,而传统的以太网在解决“大象流”和“多打一”问题上的效率不高。英伟达的NVLink和InfiniBand之所以能形成壁垒,很大程度上就是因为它们在集群互联上的优势。但2025年,一个值得关注的趋势是,基于以太网的超大规模互联方案正在成熟,Ultra Ethernet Consortium(UEC)的推进让业界看到了降低网络成本的希望。如果这一路径走通,网络成本在TCO中的占比有望进一步压缩。
还有存储占40亿,占比7%。AI训练对存储的要求是海量小文件读写和高带宽吞吐,传统的分布式文件系统在这种场景下效率不高。2025年以来,国内几家存储厂商在AI原生存储上的探索值得关注——通过软硬协同优化,可以在同等性能下降低存储节点的配置需求,从而压缩成本。
但这些系统级的优化,有一个共同的底层逻辑:它们都需要对GPU集群有深入的理解和掌控能力。不是简单地买一堆GPU堆在一起,而是从芯片到系统、从硬件到软件的垂直整合。
这正是为什么我们看到,无论是英伟达还是谷歌、亚马逊,都在往“云-芯-端”一体化的方向走。谷歌的TPU从一开始就是为自家的深度学习框架TensorFlow设计的;亚马逊的Trainium和Inferentia深度绑定AWS的服务;微软虽然大量采购英伟达的GPU,但同时也在自研芯片,并与英伟达在系统层面深度合作。
中国的情况也类似。华为昇腾的优势之一,就是它同时拥有芯片设计能力和通信技术积累,能够在芯片互联和集群组网层面做深度优化。阿里平头哥、百度昆仑与各自的云业务深度协同,也是同样的逻辑。
04

没有捷径可走
回看那张图,它的价值其实不只是拆解了成本结构,更是拆解了一种思维惯性。
“靠电价优势就能在 AI 算力赛道实现突破”——这个说法之所以有市场,是因为它符合一种“资源换优势”的旧逻辑。在过去的一些产业里,确实靠资源禀赋实现了追赶。但AI算力这个赛道,本质上是一个技术密集型、资本密集型、系统密集型的产业,资源禀赋的权重被大幅稀释了。
真正的竞争优势来自哪里?来自对GPU核心技术的突破能力,来自对先进封装和HBM等关键环节的供应链掌控力,来自软件生态的长期积累,来自系统级架构的创新能力,也来自商业模式和运营效率的持续进化。
这些,没有一样是容易的,也没有一样是靠“便宜”能换来的。
过去两三年,国内智算中心建设发展迅速,不少项目在投资思路上延续了传统IDC的模式——以园区建设、硬件部署、算力租赁为核心。但AI算力与传统IDC的商业逻辑存在明显差异:GPU硬件迭代快、折旧周期短,项目收益高度依赖算力利用率。如果仅将GPU作为标准化租赁资源,缺乏底层算法优化、集群调度与运营能力,高昂的硬件投入可能难以有效转化为持续稳定的收益,也会带来较大的资产压力。
好在,产业界正在回归理性。2025年下半年以来,我们看到的是,无论是互联网大厂还是运营商,在算力投资上都更加务实——不再是单纯的“堆卡”,而是更关注实际可用的有效算力,更关注单位算力的成本,更关注软硬协同的优化空间。
没有捷径可走。这句话听起来老套,但在AI算力这个赛道上,它依然是残酷而真实的底层逻辑。
  • 打卡等级:已臻大成
  • 打卡总天数:411
发表于 2026-3-29 12:30 | 显示全部楼层
AI算力竞争核心在技术供应链,电价优势只是伪命题
回复 支持 反对

使用道具 举报

  • 打卡等级:已臻大成
  • 打卡总天数:411
发表于 2026-3-29 12:30 | 显示全部楼层
专业人士表示沐曦这账算得明白,1GW数据中心GPU芯片250亿占大头,就像买房首付占大半,电费5%真不是重点,技术迭代才是王道
回复 支持 反对

使用道具 举报

  • 打卡等级:已臻大成
  • 打卡总天数:411
发表于 2026-3-29 12:46 | 显示全部楼层
电力只占5%,但没这5%,你百分之百歇菜。
回复 支持 反对

使用道具 举报

  • 打卡等级:已臻大成
  • 打卡总天数:411
发表于 2026-3-29 13:02 | 显示全部楼层
软件生态才是隐形大坑,CUDA 根深蒂固,国产自研栈要补算子、补工具、补社区,没几年深耕,根本跑不通主流大模型
回复 支持 反对

使用道具 举报

  • 打卡等级:已臻大成
  • 打卡总天数:411
发表于 2026-3-29 13:12 | 显示全部楼层
来,电闸给他拉了
回复 支持 反对

使用道具 举报

  • 打卡等级:已臻大成
  • 打卡总天数:729
发表于 2026-3-29 14:17 | 显示全部楼层
感谢分享!
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 注册

本版积分规则

文字版|手机版|小黑屋|RSS|举报不良信息|精睿论坛 ( 鄂ICP备07005250号-1 )|网站地图

GMT+8, 2026-3-29 15:19 , Processed in 0.223414 second(s), 5 queries , Redis On.

Powered by Discuz! X3.5

© 2001-2026 Discuz! Team.

快速回复 返回顶部 返回列表