马上注册,查看更多内容,享用更多功能,让你轻松玩转社区。
您需要 登录 才可以下载或查看,没有账号?注册
×
讲真,作为一枚老登网工,我今天有点绷不住了。
中国终于有了真正意义上「自主可控」的IB网络!
就在刚刚,中科曙光正式发布首款国产InfiniBand原生无损RDMA高速网络——scaleFabric。
这可不是普通发个交换机、出个网卡那么简单,看完发布会我长出了一口气:
国产高性能网络,终于填平了「没有IB」这个坑。
这是中国智算基础设施向自主可控迈出的里程碑一步,意味着高性能端到端全栈国产化终于就绪,这一步,真的太关键了。
接下来,我们先看看曙光这次到底发布了什么。
再来聊聊,为什么我会说:这件事,让我绷不住了。
曙光到底发布了啥
简单说,曙光这个「scaleFabric」是一套国产IB网络套装。
不仅最底层的112G PAM4高速Serdes IP是自研的,构建整套体系最重要的网络芯片也是自研的,从根上实现自主可控。
根基牢了,上面就可以衍生出很多不同的网络设备。
必须给大家来几张高清大图,看看咱们国产IB交换机和网卡,颜值也是相当能打。
❶ 曙光scaleFabric400 2U风冷高速交换机
❷ 曙光scaleFabric400 1U液冷高速交换机
❸ 曙光scaleFabric400 网卡
PCIe5.0 400G IB网卡,支持国密安全启动
好了,产品靓图和基本规格晒完,咱们讲点这些硬邦邦的家伙背后的故事……
为何曙光要啃下这块硬骨头
这东西到底干啥的,真有这么重要?
说来话长,大模型这类业务对算力的需求太猛了,很多需求,不光单台8卡机干不了,连牛哄哄的巨无霸超节点也搞不定。
单机搞不定,就必须组团,搞成智算集群,甚至要万卡+集群。
智算集群scale out互联离不开网络,要么选IB,要么RoCE,传统以太网干不了。
道理大家都懂,但我们面临两难选择:
IB,全称InfiniBand,这玩意儿诞生快30年了,都没个中文名。
这是一套专为高性能计算、AI大规模训推集群设计的互联体系,主打超低时延、超高带宽、无需CPU掺和的RDMA通信。
这IB吧,除了贵基本没毛病。
但一直以来都是国外N记一家独大,生态封闭,有很大的供应链风险。
而RoCE呢,选择面倒是挺宽,主流数通公司都有。
但是RoCE的底层身板不是太好(还是以太网),时延比IB高,也不像IB那么即插即用,比较依赖网卡、交换机、拥塞算法等等的综合优化。
如果优化到位,还能跟IB叫板。
如果不到位,实际体验就和纸面参数有差距,这也是很多不差钱客户无脑选IB的原因。
还有一点也很要命,高端的以太网芯片仍然被“C-N-M-B”四大巨头把持,(比如102.T的方案,只有
Cisco/Nvidia/Marvell/Broadcom具备)。
而且,光搞定交换机/交换芯片还不够,RoCE的高性能网卡,基本也被N记拿捏着。
你没想到吧,国产智算基础设施,不光GPU被卡,网络竟然也可能是卡点。
所以,网工出身的我,做梦都在想啥时候咱们也能有整套IB网络呢。
正做梦呢,这国产IB它竟然就来了。
曙光一出手,便知有没有
我真正兴奋的是:这一次,我们不光有,而且我们还能对标。
让我们拿出放大镜,深扒一下曙光IB全家桶的细节↓
➤先看性能
作为服务器侧的通信利器,ScaleFabirc400网卡端到端通信时延低至0.9μs。
而作为集群互联的中枢,ScaleFabric400交换机转发时延<260ns,与国际顶尖IB产品(N记NDR)性能持平,吊打RoCE网络。
下面这组图是实测数据,包括读/写/Send操作的带宽和延迟表现,蓝线是曙光,红线是N记,完全可以对标,甚至有些指标曙光scaleFabric表现还更好。
在带宽上,scaleFabric400网卡基于PCIe5.0,端口带宽400Gbps。
scaleFabric400交换机单端口飙到800Gps,对齐国际顶流,领先国产RoCE方案一到两代,整机交换容量双向64Tbps,满足万卡集群大吞吐、低时延需求需。
➤再看可靠性
既然是IB,那咱用的就是IB基因里流淌的「基于信用的无损流控机制」。
这种机制就好比“接收端按库存能力发放配额,发送端按配额发货”,从而避免缓存打爆、丢包,实现确定的、可靠的传输。
传统以太网不管这一套,一个劲儿猛发,撑爆了丢包了就重新发。
而改良版的无损以太网引入PFC机制,也是检测到快撑爆了才会喊停。
这么说吧,IB的信用流控机制粒度更细,实现真无损网络,更稳定、无丢包、无PFC风暴风险。
同时,曙光scaleFabirc具备亚毫秒级的链路故障快速恢复技术,大模型训练过程完全无感,而RoCE网络往往需要秒级恢复。
在实战中,曙光scaleFabirc通过高容错设计,保障大规模集群长期稳定运行,已实现近万卡验证规模持续稳定运行超10个月。
➤最后看扩展能力
现在动不动就要万卡、十万卡集群,对网络的扩展性要求极高。
当前市面上的主流IB产品也就能做到单子网4.9万卡,曙光scaleFabric单个子网支持11.4万卡规模的集群,同时网络总成本降低30%。
如果遇到更大规模的组网场景,scaleFabric可实现跨POD灵活扩展,适配国家超算互联网、大型智算中心等超大规模算力集群建设。
曙光这次突破,意义重大
到这里,我特别想说一句话:
曙光是真投入、真下功夫啊,在国产CPU、GPU、IO芯片、超集群的历史战绩,咱就先按下不表,单说这次IB网络的突破。
首先,它打破国外垄断,补上了国产IB网络这块大短板,从芯片到软件100%自主可控,防卡脖子又添一利器。
第二,不只是有,还很能打,带宽、时延、稳定性、扩展性全面对标,智算集群不会被网络拖后腿。
第三,不光能打,还超有性价比,组网成本比市面IB方案降低约30%,又弥补了RoCE方案在性能和运维上的短板。
第四,不止支持智算,还支持超算,一网贯通超智融合,避免重复建设两套体系,该方案在国家超算互联网核心节点已落地。
第五,不止自己玩,还能带动产业。
目前「光合组织AI计算开放架构」下设「AIDC高速网络工作组」,拉着上下游一起做生态、推标准、搞方案,把国产高性能网络这条路真正走通。
让中国算力,更好地跑在中国网络上,这波大考,曙光满分交卷! |