没有「万卡集群」很难有中国大模型的未来

神隐之左手 · 发表于 2025-12-29 16:14

马上注册，查看更多内容，享用更多功能，让你轻松玩转社区。

您需要登录才可以下载或查看，没有账号？注册

×

大家好我是爆炸头。
现在真是一个AI大爆炸💥的时代，从ChatGPT发布三周年以来，AI大模型的发展已经到达了黄金期，甚至已经有中国大模型创业公司能够有机会成为全球大模型第一股了。
而这一切的背后都离不开算力的发展，OpenAI、谷歌、Meta、Anthropic以及国内AI大厂和大模型创业公司如果想要研发万亿参数大模型，依靠单纯堆砌计算卡数量已远远不够，这至少需要数千甚至上万张高性能AI加速卡持续运行数周甚至数月。
此时，万卡集群正成为这场人工智能的军备竞赛的基础设施门槛和最关键的核心竞争力之一。如果没有万卡级智能计算基础设施,对AI公司就意味着：训练时间被无限拉长；模型规模被迫妥协；新架构、新范式无法验证；算力成本居高不下。AI公司会被迫停留在“中等模型”的舒适区，很难追不上OpenAI、谷歌等硅谷AI公司最先进的大模型。所以对于国内 AI 企业来说，万卡集群不是锦上添花，而是AI 时代的家底。
所以不夸张地说，没有万卡集群就很难有中国大模型的未来。
也正是在这样的背景下，12月18 日，在昆山举行的光合组织2025人工智能创新大会（HAIC2025）上，中科曙光发布了一个极具标志性的产品——scaleX 万卡超集群。而且，不是 PPT，不是概念，是真机亮相。

这也标志着国产AI算力在系统级架构上取得重大突破。
中科曙光高级副总裁李斌在发布会上坦言：“面对人工智能基础设施对性能、效率、可靠性、可扩展性等方面的极致需求，scaleX万卡超集群在超节点架构、高速互连网络、存储性能优化、系统管理调度等方面实现了多项创新突破。”
据他透露，曙光万卡超集群部分技术与能力已超越英伟达研发路线图的2027年NVL576里程节点。这是一个值得关注的信号，意味着在某些关键技术上，中国智算基础设施已实现从追赶者到并行者的转变。

ok前面探讨了万卡集群的重要性，接下来要回答一个问题：部署万卡集群到底难在哪？都有哪些痛点？中科曙光又是如何解决的？这是一次什么意义的突破？
部署万卡集群为什么这么难？
很多人以为这只是因为“显卡太贵”买不着。但其实，哪怕把一万张现成的卡摆在你面前，国内也压根没几家公司有实力部署成功。
这背后的难点可谓是爆炸性的。
难点一：通信瓶颈，放大成系统级灾难。在万卡规模下，每一步训练都伴随海量数据交换，网络延迟哪怕增加0.1微秒，都会被成百上千次同步操作放大。结果就是：算力被“堵”在网络里，卡越多效率反而越低。
难点二：能耗与散热，直接决定可持续性。万卡集群不是跑一天，而是7×24小时×N个月长期运行。散热方案不成熟，稳定性直接崩溃，可以说没有极致能效，就没有长期运营的可能。

难点三：存储跟不上，算力再强也是空转。大模型训练是典型的“数据洪流”场景：万卡并发读写、海量参数加载、高频检查点保存。如果存储和传输体系没有协同设计，结果只有一个：“显卡”在等数据，而不是算数据。
难点四：运维与调度，规模一大就失控。当节点规模达到万级时，调度能力决定算力上限，能不能长期稳定跑，往往比“能不能跑起来”更重要。
中科曙光是如何系统性解决这些难点的？
也正是在上述这些“行业公认的硬骨头”上，中科曙光 scaleX 万卡超集群给出了完整答卷。

1、从计算单元开始重构：640 卡超节点
scaleX 万卡超集群采用了全球首创的单机柜级 640 卡超节点：单机柜 640 张 AI 加速卡、16 个 scaleX640 超节点互连，总计 10240 卡，算力规模超 5 EFlops。
通过超高密度刀片设计和浸没相变液冷技术实现单机柜算力密度提升20 倍、PUE 低至 1.04，这是从物理层面，解决能效与密度问题。
2、自主 scaleFabric 网络，打通万卡通信命门
scaleX 采用曙光自研 scaleFabric 高速网络，基于国产 400G 类 InfiniBand 原生 RDMA
实现带宽 400Gb/s、通信延迟低于1微秒。
带来的直接结果是万卡同步不再成为瓶颈，算力释放更充分，集群可扩展至10万卡以上。
同时性能提升2.33倍、网络成本降低 30%。
3、存、算、传紧耦合，让算力真正“跑满”
此外通过“超级隧道”、AI 数据加速等技术在芯片、系统和应用方面实现三级协同优化：
n让万卡并发读写不再吃力；
n让模型推理响应更快、结果更稳；
n让AI加速卡利用率提升55%；
4、数字孪生 + 智能调度，保障长期稳定运行
scaleX 通过引入超集群数字孪生与智能调度体系，实现了故障可视化、可预测、集群长期可用性达 99.99%，从而实现每秒万级作业调度能力，能够同时服务十万级用户。
以上这些都让万卡集群真正具备了工业级可持续运行能力。
为何说scaleX万卡集群是一次“根创新”？
很多技术进步，是“功能创新”。
但我觉得scaleX 万卡超集群，更像是一次根创新。
首先它解决的不是“某个模型”，而是“所有模型、硬件设施的算力底座”。既可以支持多品牌加速卡，兼容主流计算生态，并已适配400+ 主流大模型与世界模型。
这意味着中国AI创新不用再担心被算力架构锁死。
其次，scaleX 万卡超集群降低了整个产业的门槛。
通过“AI 计算开放架构”，中科曙光已经联合 20 多家产业链伙伴共享关键共性技术，一举把超复杂的系统工程能力变成“可复用能力”，从而让更多 AI 企业不必担心显卡部署问题，而是把资源投入真正有价值的模型和架构创新上。

最后，它为中国AI补上了最关键的一块拼图。
只有当万卡集群不再成为限制大模型发展的瓶颈，当系统能力实现自主可控时，中国AI才真正拥有长期竞争力，万亿参数模型才有持续进化空间，科学智能、工业智能才有现实基础。
还是前面那句话：没有万卡集群，就没有中国大模型的未来。
而scaleX 万卡超集群不仅完成了，甚至部分技术与能力已超越英伟达研发路线图的2027年NVL576里程节点。
所以中科曙光这次不只是一次技术发布亮相，而是一次中国AI 底座能力的跃迁，是中国 AI“根能力”的一次夯实，甚至让中国智算基础设施在某些关键技术上已实现从追赶者到并行者的转变。

oppledr · 发表于 2025-12-29 17:06

@元宝曙光牛不牛？

ailixiaoran · 发表于 2025-12-29 20:31

果断回帖，如果沉了就是我弄沉的很有成就感

whsnst996 · 发表于 2025-12-29 22:25

中国科技，继续加油

com2 · 发表于 2025-12-30 10:20

谢谢楼主分享！

账号		自动登录	找回密码
密码			注册

[科技新闻] 没有「万卡集群」很难有中国大模型的未来

马上注册，查看更多内容，享用更多功能，让你轻松玩转社区。

浏览过的版块