找回密码
 注册

QQ登录

只需一步,快速开始

搜索
查看: 24|回复: 13

[科技新闻] 一句话引爆国产芯片投资热潮,DeepSeek究竟说了什么?

[复制链接]
  • 打卡等级:已臻大成
  • 打卡总天数:411
发表于 2025-8-30 08:02 | 显示全部楼层 |阅读模式

马上注册,查看更多内容,享用更多功能,让你轻松玩转社区。

您需要 登录 才可以下载或查看,没有账号?注册

×
2025年8月19日,杭州深度求索人工智能基础技术研究有限公司(DeepSeek)发布了新一代模型 DeepSeek V3.1,并在公众号留言中强调:“UE8M0 FP8是针对即将发布的下一代国产芯片设计的。”
这句不起眼的话,引爆了投资者对国产芯片厂商的热情。
8月28日,寒武纪(688256.SH)股价收盘价为1587.91元,超过贵州茅台(600519.SH),单月涨幅高达100%。不仅寒武纪,其他芯片类上市公司也随之大幅走强。
万得信息数据显示,芯片指数(884160.WI)探底回升,近一个月涨19.5%。AI算力指数(8841678.WI)近一个月涨22.47%。
尽管尚未明确下一代国产芯片的具体厂商,但DeepSeek这番表态似乎传递出两个关键信号:其一,下一代国产芯片可能会支持UE8M0 FP8;其二,DeepSeek已与国产芯片厂商在模型训练阶段展开深入对接。
在诸多媒体报道中,这句话也被解读为——DeepSeek正在抛弃英伟达生态,积极拥抱国产芯片。
事实果真如此吗?答案就写在DeepSeek的模型代码里。

1.webp


DeepSeek一句不起眼的话,引爆了投资者对国产芯片厂商的热情。视觉中国 图


和英伟达割席?

南方周末记者对比了DeepSeek的V3.1、V3和R1三个大模型的配置文件,三个模型的量化配置都是一致的,唯独v3.1新增了一个量化缩放因子的格式UE8M0。
从配置文件来看,UE8M0是为“下一代国产芯片而设计的”这句话,如果理解为DeepSeek 为了国产芯片而采用了一种新的精度数据格式并不准确。
DeepSeek在配置文件中明确写出了UE8M0缩放因子,是为了部署阶段更好地兼容不同硬件(包括国产芯片),而不是他们自己发明了新的精度标准。
UE8M0是OCP在2023 年《Microscaling Formats (MX) 规范》里定义的一种缩放因子格式,由 AMD、Arm、Intel、Meta、Microsoft、NVIDIA、Qualcomm 等公司共同推动。它也是业界常用的 FP8 缩放方案之一。从这一点看,DeepSeek 选择将它作为缩放因子格式,是和国际接轨而不是分道扬镳另立标准。
缩放因子正是在模型精度转化中发挥作用。大模型语境里,“缩放因子”类似于地图的比例尺,作用是把某一个范围内的数映射到另一个范围当中。明确了缩放因子,相当于为国产芯片提供了一个准确又适当的比例尺,让模型在国产芯片上跑得更快更稳定,性能也更好。
DeepSeek模型的权重依然主要采用 E4M3,这种格式在英伟达GPU上有成熟的硬件电路支持。大部分现有国产芯片仍以FP16/BF16 + INT8为主,还未普遍集成E4M3的原生支持,因此DeepSeek当前最优的运行环境仍然是英伟达GPU。
那么,确定了缩放因子的格式为UE8M0,到底意味着什么?这其实是一个模型部署阶段的概念,为了更快、更好,DeepSeek 的模型选择了FP8这种低精度的数据格式储存模型的权重,就是利用8个比特来储存数据。
事实上,目前大多数国产AI芯片仍主要支持 FP16/BF16与INT8,并未普遍集成对E4M3/E5M2 等原生FP8格式的硬件支持。这意味着在国产芯片上部署DeepSeek大模型时,需要先将FP8权重转化为更高精度的数据格式(如 FP16/BF16)以适配推理计算。
在这一转化过程中,不仅会增加显存和存储开销,还可能造成性能下降。以DeepSeek-R1为例,模型权重在FP8精度下约为640GB,但转化为更高精度后可膨胀至约1.3TB。这意味着英伟达H20单机八卡即可运行,而国产芯片可能需要双倍硬件资源,同时还可能出现一定程度的精度损失。
过去一年里,DeepSeek发布了大量针对cuda的优化工具,从计算效率、通信优化、矩阵计算、任务调度到负载平衡,覆盖了AI计算中的多个关键环节。从DeepSeek自己的表述来看,对这一格式的选择并没有和英伟达割席,仍与cuda生态保持一致。
因此,UE8M0的真正价值不在于“摆脱英伟达”,而在于为国产芯片的模型部署创造了更好的条件。

2.webp


DeepSeek 模型的权重依然主要采用 E4M3,这种格式在英伟达GPU上有成熟的硬件电路支持。因此 ,DeepSeek当前最优的运行环境仍然是英伟达 GPU。配置文件截图

取决于市场


中国信息通信研究院人工智能研究所软硬件与创新生态部主任李论向南方周末记者解释:“FP32、FP16、FP8,代表的是存储数据时到底是用32位存,还是用16位或8位存。用越少的位数存,占用的显存越少。”
事实上绝大多数国产芯片都不是原生支持FP8,它们原生支持的参数精度格式其实是FP16。此前,DeepSeek V3发布时,国产AI芯片厂商遇到的难题是,无法原生支持FP8的情况下,如何部署满血版DeepSeek V3,即使通过技术手段进行了优化,也会带来增加存储需求或降低精度的问题。
比如,寒武纪的加速卡MLU370-X8、MLU370-S4/S8,南方周末记者查阅其官方的产品规格说明,确认其计算精度只支持FP32、FP16、BF16、INT16、INT8、INT4,没有显示可以支持FP8,但是它支持INT8,之前国内AI芯片厂商就是通过INT8来解决不支持FP8的问题。
最早原生支持FP8这种精度格式的芯片是英伟达的H100。2022年英伟达推出H100,首次在硬件中实现了原生支持FP8。这一格式一直被英伟达寄予厚望,认为其成功延续了黄氏定律,即10年间 GPU硬件算力提升1000倍。
对于两者区别,英伟达工程师陶砺和薛博阳在官方博客当中介绍过,“与传统的FP16(16位浮点数)和FP32(32 位浮点数)相比,它(FP8)显著减少了存储,提高了计算吞吐”。大模型训练和推理中采用FP8,“大幅提升了LLM的训练和推理的性能”。
DeepSeek说“UE8M0 FP8针对即将发布的下一代国产芯片”,这意味着即将发布的下一代国产芯片可能将支持FP8。对比之前的国产芯片,下一代国产芯片将大幅提高模型性能,减少存储空间,提高通信效率,也能减少此前由于不原生支持FP8,部署适配时的模型性能下降问题和存储增加的麻烦。
更重要的是,这种进步将带来部署成本降低。李论解释,以部署DeepSeek 671B满血版为例,支持FP8精度的系统,能实现单机8卡推理DeepSeek 671B满血版模型(INT8/FP8精度),与英伟达所需硬件规模持平。只支持FP16精度的芯片,需两机16卡或四机32卡完成同参数量模型部署。“两台机器16张卡,肯定要比单机版贵一倍,成本以百万元级别为单位翻倍。”
“向低精度发展是个行业趋势。”李论表示,因为模型发展很快,硬件设计周期是比较长的,模型和芯片的发展实际上是一个螺旋式的过程,“一旦主流模型相对稳定之后,硬件厂商也能更清楚怎么去做硬件设计,市场上的模型应用一直在变,硬件厂商就很难精准优化某一种模型的架构”。
如何选择硬件的精度格式,最重要的还是看市场需求。李论表示,如果大家都会用这个模型,都会用这样的架构,市场有了需求,“厂商就会去沿着这条路去走”。
据她观察,软硬件协同或者是说模型的适配已经成为行业重要动作。正是这一背景下,2024年3月,中国信息通信研究院联合北京经开区成立了人工智能软硬件协同创新与适配验证中心,为人工智能软硬件系统需求侧及供给侧提供测试验证。
截至2025年7月,已有包括芯片、服务器、一体机等硬件设备、框架软件以及云服务商等在内的人工智能软硬件产业链关键环节三十余家企业积极参与评测,首批适配测试通过的总共有8款产品。这些测试的结果将支撑国家人工智能重大决策部署,加速产业创新与应用推广。
她表示,中国已有系统实现单机8卡推理DeepSeek 671B满血版模型(INT8/FP8精度),与英伟达所需硬件规模持平,但是大部分国产设备需两机16卡或四机32卡完成同参数量模型部署。
在李论看来,DeepSeek选择了UE8M0 FP8,“是一个很正常的工程问题,它需要模型更快、成本更低,至于硬件厂商跟不跟它一起做,还要取决于市场需求”。但是她也认同目前国产大模型和硬件协同发展,“正在快速发展中”。
8月28日,南方周末记者就此事拨打了深度求索公司官方电话,但截至发稿电话一直无法接通。

南方周末记者 罗欢欢
责编 顾策
  • 打卡等级:已臻大成
  • 打卡总天数:411
发表于 2025-8-30 00:34 | 显示全部楼层
回复 支持 反对

使用道具 举报

  • 打卡等级:已臻大成
  • 打卡总天数:411
 楼主| 发表于 2025-8-30 06:13 | 显示全部楼层
回复 支持 反对

使用道具 举报

  • 打卡等级:已臻大成
  • 打卡总天数:411
发表于 2025-8-30 08:44 | 显示全部楼层
美财长在发布前就知Deepseek在适配国产芯片,消息很灵通。
回复 支持 反对

使用道具 举报

  • 打卡等级:已臻大成
  • 打卡总天数:411
发表于 2025-8-30 08:56 | 显示全部楼层
中国科技正在顶着美国及其西方的枪林弹雨,勇敢的在前沿阵地上冲锋陷阵,已经在敌人的围堵中打开了诸多缺口,胜利的曙光正在向我们招手。向科技战线上的勇士们致敬!
回复 支持 反对

使用道具 举报

  • 打卡等级:已臻大成
  • 打卡总天数:411
发表于 2025-8-30 09:01 | 显示全部楼层
这次国产芯片投资热不是瞎炒,主要是大家看到了实打实地突破点 了,下一代芯片要支持 FP8 了,之前国产芯片总卡在精度上,跑大模型又费卡又费存储,现在终于有方向了,投资者才愿意真金白银进场。
回复 支持 反对

使用道具 举报

  • 打卡等级:已臻大成
  • 打卡总天数:411
发表于 2025-8-30 09:01 | 显示全部楼层
DeepSeek 选 UE8M0 不是跟国产芯片 “深度绑定”,更多是给自己留后路,毕竟现在英伟达生态还没法丢,但万一以后国产芯片起来了,它的模型能更快适配,不用临时改格式,两边都不耽误。
回复 支持 反对

使用道具 举报

  • 打卡等级:已臻大成
  • 打卡总天数:411
发表于 2025-8-30 09:02 | 显示全部楼层
国产芯片想搞 FP8,不光是加个功能那么简单,得改硬件底层设计,还得配套做优化软件,这俩都得跟上,不然光硬件支持了,用起来又慢又卡,还是没人要,这是挑战也是必须跨过去的坎。
回复 支持 反对

使用道具 举报

  • 打卡等级:已臻大成
  • 打卡总天数:411
发表于 2025-8-30 09:25 | 显示全部楼层
UE8M0 FP8 这东西其实是行业通用的 “技术普通话”,背后是 Meta、英伟达这些巨头 2023 年一起制定的 OCP MX 规范,AMD、Arm 这些大厂都认这个标准,不是 DeepSeek 自己搞的小圈子。之前国产芯片用 FP16 跑模型,光格式转换就让寒武纪在训练时显存操作耗时多了近一倍,现在用这个通用格式,数据传输不用来回转码,能少掉不少性能损耗,后续对接其他设备会顺很多。
回复 支持 反对

使用道具 举报

  • 打卡等级:已臻大成
  • 打卡总天数:411
发表于 2025-8-30 09:25 | 显示全部楼层
现在国产芯片还没法把英伟达完全换掉,你看 DeepSeek 的模型,最优运行环境还是英伟达 GPU,国产芯片更多是帮用户分摊点次要任务,比如简单的推理,两者是搭伙干活,而不是对着干。
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 注册

本版积分规则

文字版|手机版|小黑屋|RSS|举报不良信息|精睿论坛 ( 鄂ICP备07005250号-1 )|网站地图

GMT+8, 2025-9-12 10:30 , Processed in 0.266935 second(s), 6 queries , Redis On.

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表