夜间模式 切换到宽版

 找回密码
 注册

QQ登录

只需一步,快速开始

搜索
查看: 680|回复: 4

[科技新闻] 国产AI芯片:华为昇腾的迭代路线

[复制链接]
  • 打卡等级:已臻大成
  • 打卡总天数:411
发表于 2025-9-21 08:28 | 显示全部楼层 |阅读模式

马上注册,查看更多内容,享用更多功能,让你轻松玩转社区。

您需要 登录 才可以下载或查看,没有账号?注册

×
芝能智芯出品

2025年华为全联接大会上,昇腾AI芯片的路线图引发热议。



从910到950、960再到970,华为逐年迭代,单芯片算力从300 TFLOPS(FP16)增至超1 PFLOPS,HBM带宽翻倍,目标直指万亿参数大模型训练和边缘推理,昇腾通过计算、互联和生态优化,这次的路线图给人带来的感觉很燃很不一样了。



Part 1
昇腾AI芯片的演进路线


华为昇腾AI芯片是国内AI算力体系逐步成熟的缩影,从最早的昇腾910开始,产品线就瞄准了大规模训练任务所需的高算力、高带宽和大规模互联能力。



从整体演进脉络来看,昇腾芯片的设计逻辑始终围绕三大核心展开:



 是单芯片算力的持续提升;


 是芯片间互联能力的迭代优化;


 是开发生态与系统级支持的逐步完善。


1.webp



昇腾系列芯片将于2026年第一季度推出950PR型号,同年第四季度发布950DT;随后在2027年第四季度推出昇腾960,并于2028年第四季度迎来昇腾970的上市。



昇腾910C已于今年第一季度正式投入量产,集成两颗昇腾910B芯片,提供约800 TFLOPS的FP16计算性能,内存带宽达到3.2 TB/s。



950芯片采用了华为自主研发的高带宽内存(HBM),增强了对低精度数据格式的支持,提升向量计算性能,互连带宽实现了2.5倍的提升。



相关的参数为



2.webp



 950PR/DT:微架构SIMD/SIMT,算力1PFLOPS(FP8)/ 2PFLOPS(FP4),支持FP32/HF32/FP16/BF16/FP8/MXFP8 /HiF8/MXFP4/HiF4等数据格式,互联带宽为2TB/s。


内存容量和带宽上,昇腾950PR为144GB、4TB/s,昇腾950PR为128GB、1.6TB/s。


3.webp

4.webp



 昇腾960:微架构SIMD/SIMT,算力翻倍提高到2PFLOPS(FP8)  /4PFLOPS(FP4),支持FP32/HF32/FP16/BF16/FP8/MXFP8/ HiF8/MXFP4/HiF4等数据格式,互联带宽为2.2TB/s,HBM内存容量也翻倍到288GB、带宽达到9.6TB/s。


 昇腾970:微架构SIMD/SIMT,算力再度翻倍到4PFLOPS(FP8) /8PFLOPS(FP4),支持FP32/HF32/FP16/BF16/FP8/MXFP8/ HiF8/MXFP4/HiF4等数据格式,互联带宽提高到4TB/s,HBM内存容量虽然维持到288GB,带宽会提高到14.4TB/s。


Part 2
架构突破与系统设计


华为发布了以昇腾950为基础的新型超节点,该超节点将成为全球最强超节点,甚至超越英伟达预计在2027年推出的NVL576系统。



5.webp



昇腾芯片的价值不在于其在架构层面上的一系列突破。



 在计算单元设计上,昇腾芯片采用了矩阵计算加速单元(Cube Unit)作为核心模块。


这种结构针对AI模型中的矩阵乘加运算进行了深度优化,使得在半精度(FP16)、混合精度(BF16、INT8等)计算时能够获得更高的吞吐率。


 在存储与带宽方面,昇腾芯片紧密结合HBM高带宽存储技术。随着模型参数规模的急剧扩张,内存带宽已成为制约AI训练性能的主要瓶颈。


昇腾芯片通过优化片上缓存架构和数据流调度机制,提升了HBM的利用效率,减少了访存延迟。在昇腾960及后续版本中,还强调了存储与计算的协同设计,以保证计算单元能够持续高效工作。



 在芯片互联上,昇腾系列逐步形成了自己的高带宽低延迟互联架构。类似于英伟达的NVLink,华为通过自研的高速互联技术,使多颗昇腾芯片可以以接近线性扩展的方式组成大规模集群。


这种设计不仅解决了通信瓶颈问题,还为超大规模模型的分布式训练提供了必要的硬件支持。尤其是在超节点集群场景下,这种互联架构直接决定了整体算力的可扩展性。



昇腾芯片在系统设计层面也展现了全栈优化的思路。



CANN算子库与MindSpore框架的深度融合,使得开发者可以在高层框架中透明地调用底层硬件优化,华为也在虚拟化和调度层面提供了支持,使芯片算力能够在不同任务之间灵活分配。



在能效比方面,昇腾芯片通过工艺制程演进、架构优化和动态功耗管理,实现了算力与能耗之间的平衡。




小结


从昇腾910到昇腾970的演进,是国产AI芯片逐步走向成熟的见证。通过在计算单元设计、内存带宽利用、芯片互联和系统生态上的迭代,这建立起能够支撑大模型训练与推理的完整算力体系。
  • 打卡等级:已臻大成
  • 打卡总天数:411
发表于 2025-9-21 09:10 | 显示全部楼层
华为芯片:从910到970,算力狂飙似坐火箭
回复 支持 反对

使用道具 举报

  • 打卡等级:已臻大成
  • 打卡总天数:411
发表于 2025-9-21 09:10 | 显示全部楼层
大学生/年轻人
回复 支持 反对

使用道具 举报

  • 打卡等级:功行圆满
  • 打卡总天数:775
发表于 2025-9-21 11:29 | 显示全部楼层
谢谢分享。
回复 支持 反对

使用道具 举报

  • 打卡等级:自成一派
  • 打卡总天数:331
发表于 2025-9-21 14:06 | 显示全部楼层
支持,非常给力!
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 注册

本版积分规则

文字版|手机版|小黑屋|RSS|举报不良信息|精睿论坛 ( 鄂ICP备07005250号-1 )|网站地图

GMT+8, 2026-4-23 13:08 , Processed in 0.193617 second(s), 5 queries , Redis On.

Powered by Discuz! X3.5

© 2001-2026 Discuz! Team.

快速回复 返回顶部 返回列表