找回密码
 注册

QQ登录

只需一步,快速开始

搜索
查看: 65|回复: 14

[科技新闻] 重大突破!中国终于有了自己的IB网络

[复制链接]
  • 打卡等级:已臻大成
  • 打卡总天数:411
发表于 2026-3-12 17:39 | 显示全部楼层 |阅读模式

马上注册,查看更多内容,享用更多功能,让你轻松玩转社区。

您需要 登录 才可以下载或查看,没有账号?注册

×
讲真,作为一枚老登网工,我今天有点绷不住了。
中国终于有了真正意义上「自主可控」的IB网络!
1.png


就在刚刚,中科曙光正式发布首款国产InfiniBand原生无损RDMA高速网络——scaleFabric
2.webp


这可不是普通发个交换机、出个网卡那么简单,看完发布会我长出了一口气:
国产高性能网络,终于填平了「没有IB」这个坑。
这是中国智算基础设施向自主可控迈出的里程碑一步,意味着高性能端到端全栈国产化终于就绪,这一步,真的太关键了。
3.png


接下来,我们先看看曙光这次到底发布了什么。
再来聊聊,为什么我会说:这件事,让我绷不住了。
曙光到底发布了啥

简单说,曙光这个「scaleFabric」是一套国产IB网络套装。
不仅最底层的112G PAM4高速Serdes IP是自研的,构建整套体系最重要的网络芯片也是自研的,从根上实现自主可控。
4.png


根基牢了,上面就可以衍生出很多不同的网络设备。
必须给大家来几张高清大图,看看咱们国产IB交换机和网卡,颜值也是相当能打。
❶ 曙光scaleFabric400 2U风冷高速交换机
5.webp

风冷版本,40个800Gbps IB网络端口

❷ 曙光scaleFabric400 1U液冷高速交换机
6.webp

冷板液冷版本,40个800Gbps IB网络端口

❸ 曙光scaleFabric400 网卡
7.webp

PCIe5.0 400G IB网卡,支持国密安全启动

好了,产品靓图和基本规格晒完,咱们讲点这些硬邦邦的家伙背后的故事……

为何曙光要啃下这块硬骨头

这东西到底干啥的,真有这么重要?
说来话长,大模型这类业务对算力的需求太猛了,很多需求,不光单台8卡机干不了,连牛哄哄的巨无霸超节点也搞不定。
8.png


单机搞不定,就必须组团,搞成智算集群,甚至要万卡+集群。
智算集群scale out互联离不开网络,要么选IB,要么RoCE,传统以太网干不了。
9.png


道理大家都懂,但我们面临两难选择:
IB,全称InfiniBand,这玩意儿诞生快30年了,都没个中文名。
这是一套专为高性能计算、AI大规模训推集群设计的互联体系,主打超低时延、超高带宽、无需CPU掺和的RDMA通信。
10.webp


这IB吧,除了贵基本没毛病。
但一直以来都是国外N记一家独大,生态封闭,有很大的供应链风险。
11.png


而RoCE呢,选择面倒是挺宽,主流数通公司都有。
但是RoCE的底层身板不是太好(还是以太网),时延比IB高,也不像IB那么即插即用,比较依赖网卡、交换机、拥塞算法等等的综合优化。
12.webp


如果优化到位,还能跟IB叫板。
如果不到位,实际体验就和纸面参数有差距,这也是很多不差钱客户无脑选IB的原因。
13.webp


还有一点也很要命,高端的以太网芯片仍然被“C-N-M-B”四大巨头把持,(比如102.T的方案,只有
Cisco/Nvidia/Marvell/Broadcom具备)。

而且,光搞定交换机/交换芯片还不够,RoCE的高性能网卡,基本也被N记拿捏着。
14.webp


你没想到吧,国产智算基础设施,不光GPU被卡,网络竟然也可能是卡点。
所以,网工出身的我,做梦都在想啥时候咱们也能有整套IB网络呢。
正做梦呢,这国产IB它竟然就来了。
15.webp


曙光一出手,便知有没有

我真正兴奋的是:这一次,我们不光有,而且我们还能对标。
让我们拿出放大镜,深扒一下曙光IB全家桶的细节↓
先看性能

作为服务器侧的通信利器,ScaleFabirc400网卡端到端通信时延低至0.9μs。
而作为集群互联的中枢,ScaleFabric400交换机转发时延<260ns,与国际顶尖IB产品(N记NDR)性能持平,吊打RoCE网络。
16.webp


下面这组图是实测数据,包括读/写/Send操作的带宽和延迟表现,蓝线是曙光,红线是N记,完全可以对标,甚至有些指标曙光scaleFabric表现还更好。
17.webp


18.webp


19.webp


20.webp


21.webp


22.webp


在带宽上,scaleFabric400网卡基于PCIe5.0,端口带宽400Gbps。
scaleFabric400交换机单端口飙到800Gps,对齐国际顶流,领先国产RoCE方案一到两代,整机交换容量双向64Tbps,满足万卡集群大吞吐、低时延需求需。
23.webp


再看可靠性

既然是IB,那咱用的就是IB基因里流淌的「基于信用的无损流控机制」。
这种机制就好比“接收端按库存能力发放配额,发送端按配额发货”,从而避免缓存打爆、丢包,实现确定的、可靠的传输。
24.png


传统以太网不管这一套,一个劲儿猛发,撑爆了丢包了就重新发。
而改良版的无损以太网引入PFC机制,也是检测到快撑爆了才会喊停。
25.png


这么说吧,IB的信用流控机制粒度更细,实现真无损网络,更稳定、无丢包、无PFC风暴风险。
同时,曙光scaleFabirc具备亚毫秒级的链路故障快速恢复技术,大模型训练过程完全无感,而RoCE网络往往需要秒级恢复。
26.png


在实战中,曙光scaleFabirc通过高容错设计,保障大规模集群长期稳定运行,已实现近万卡验证规模持续稳定运行超10个月。
27.png


最后看扩展能力

现在动不动就要万卡、十万卡集群,对网络的扩展性要求极高。
当前市面上的主流IB产品也就能做到单子网4.9万卡,曙光scaleFabric单个子网支持11.4万卡规模的集群,同时网络总成本降低30%。
28.webp


如果遇到更大规模的组网场景,scaleFabric可实现跨POD灵活扩展,适配国家超算互联网、大型智算中心等超大规模算力集群建设。
29.png


曙光这次突破,意义重大

到这里,我特别想说一句话:
30.webp


曙光是真投入、真下功夫啊,在国产CPU、GPU、IO芯片、超集群的历史战绩,咱就先按下不表,单说这次IB网络的突破。
首先,它打破国外垄断,补上了国产IB网络这块大短板,从芯片到软件100%自主可控,防卡脖子又添一利器。
31.png


第二,不只是有,还很能打,带宽、时延、稳定性、扩展性全面对标,智算集群不会被网络拖后腿。
第三,不光能打,还超有性价比,组网成本比市面IB方案降低约30%,又弥补了RoCE方案在性能和运维上的短板。
32.webp


第四,不止支持智算,还支持超算,一网贯通超智融合,避免重复建设两套体系,该方案在国家超算互联网核心节点已落地。
33.webp


第五,不止自己玩,还能带动产业。
目前「光合组织AI计算开放架构」下设「AIDC高速网络工作组」,拉着上下游一起做生态、推标准、搞方案,把国产高性能网络这条路真正走通。
34.png


让中国算力,更好地跑在中国网络上,这波大考,曙光满分交卷!
  • 打卡等级:已臻大成
  • 打卡总天数:411
发表于 2026-3-12 18:42 | 显示全部楼层
曙光这scaleFabric网卡0.9μs时延比我家路由器响应还快相当于百米跑进1秒,国产自研芯片就像换掉进口发动机,老网工终于不用看国外脸色了
回复 支持 反对

使用道具 举报

  • 打卡等级:已臻大成
  • 打卡总天数:411
发表于 2026-3-12 19:01 | 显示全部楼层
不明觉厉
回复 支持 反对

使用道具 举报

  • 打卡等级:已臻大成
  • 打卡总天数:411
发表于 2026-3-12 19:18 | 显示全部楼层
没看懂,专业性强,先点赞了!
回复 支持 反对

使用道具 举报

  • 打卡等级:已臻大成
  • 打卡总天数:411
发表于 2026-3-12 19:42 | 显示全部楼层
继续向224GT甚至更高的448迈进。PCIe 已经到7.0了
回复 支持 反对

使用道具 举报

  • 打卡等级:已臻大成
  • 打卡总天数:411
发表于 2026-3-12 19:53 | 显示全部楼层
有了自己的丨B网络可以降网费了吧?这部分费用不用交给美国是应该减少网友的网费
回复 支持 反对

使用道具 举报

  • 打卡等级:已臻大成
  • 打卡总天数:411
发表于 2026-3-12 20:06 | 显示全部楼层
曙光加油![点赞][点赞]
回复 支持 反对

使用道具 举报

  • 打卡等级:已臻大成
  • 打卡总天数:411
发表于 2026-3-12 20:12 | 显示全部楼层
国货荣光!
回复 支持 反对

使用道具 举报

  • 打卡等级:已臻大成
  • 打卡总天数:411
发表于 2026-3-12 20:25 | 显示全部楼层
厉害了加油加油
回复 支持 反对

使用道具 举报

  • 打卡等级:已臻大成
  • 打卡总天数:411
发表于 2026-3-12 20:47 | 显示全部楼层
这些字我都认识,放一起我就不懂了
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 注册

本版积分规则

文字版|手机版|小黑屋|RSS|举报不良信息|精睿论坛 ( 鄂ICP备07005250号-1 )|网站地图

GMT+8, 2026-3-13 23:29 , Processed in 0.227390 second(s), 5 queries , Redis On.

Powered by Discuz! X3.5

© 2001-2026 Discuz! Team.

快速回复 返回顶部 返回列表