国产AI算力的“阶跃”时刻

诛仙九妹 · 发表于 2025-7-30 17:12

马上注册，查看更多内容，享用更多功能，让你轻松玩转社区。

您需要登录才可以下载或查看，没有账号？注册

×

（文/观察者网张广凯）
沐曦陈维良、天数智芯盖鲁江、燧原赵立东、壁仞张文，四家国产算力芯片领军企业的创始人同台对话，即使不是第一次，也是非常罕见的一幕。

更耐人寻味的是，这一幕出现在大模型企业阶跃星辰的发布会上。
7月25日，作为今年世界人工智能大会的一部分，阶跃星辰在上海发布了新一代SOTA级的多模态推理大模型Step 3。
作为著名的“多模态卷王”，如果说Step 3本身的模型能力已经不会太让人意外，那么这次发布会上更大的惊喜，来自于其对国产芯片的强大适配能力——据介绍，Step 3在国产芯片上的推理效率最高可达DeepSeek-R1的300%。
同日，阶跃星辰联合近10家芯片及基础设施厂商发起“模芯生态创新联盟”，首批成员包括华为昇腾、沐曦、壁仞科技、燧原科技、天数智芯、无问芯穹、寒武纪、摩尔线程、硅基流动等。
阶跃星辰的名字来自数学中的“阶跃函数”，这个函数常用来描述从0到1的突然跳变。当英伟达H20都面临“断供”风险，国产算力今年已经成为大模型企业的必选项。这个趋势当然不仅仅归功于阶跃星辰，但国产模芯生态确如“阶跃函数”一样正在快速跃迁。

当模型和芯片变成一个系统
自从今年初DeepSeek爆火出圈之后，人们已经习惯了用“DeepSeek时刻”来形容中国大模型产业的进步。但是属于DeepSeek自己的下一个“DeepSeek时刻”，却迟迟没有到来。
早在2月份，就有消息称DeepSeek计划于5月发布下一代推理模型R2，甚至有可能提前。但截至目前，R2仍然未能亮相。知名科技媒体The Information曾指出，英伟达H20芯片此前的禁售风波，可能是DeepSeek计划跳票的重要原因。
DeepSeek此前的V3和R1模型，均是基于英伟达芯片训练。昔日还以幻方量化知名的梁文锋曾在采访中承认，他在2021年就已经囤积了万张英伟达显卡。直到2023年，幻方拥有的英伟达显卡都超过国内很多头部大厂，这是DeepSeek成功的物理前提。
如今英伟达显卡屡屡出现断供风险，影响的不是仅仅DeepSeek自身的模型训练，也让下游那些并非财大气粗的用户在部署时遇到麻烦。随着华为昇腾等国产芯片的性价比逐步超越H20，越来越多的用户和算力厂商开始转向国产芯片。
但DeepSeek V3和R1的优化原本是针对英伟达H800这样的高端芯片，用在国产芯片时仍然需要大量的适配工作。算力加速平台硅基流动的创始人袁进辉曾透露，为了在华为昇腾芯片上适配DeepSeek，其团队与华为工程师整个春节假期都没有休息。
现在，阶跃星辰想从根本上解决这个难题。
在Step 3的发布会上，阶跃星辰创始人、CEO姜大昕展示了两组数据：
在国产芯片上，Step 3的推理效率最高可达DeepSeek-R1的300%；而即使在基于 NVIDIA Hopper 架构的芯片进行分布式推理时，实测Step 3相较于 DeepSeek-R1的吞吐量提升了超过70%。

这样的效率提升是如何做到的？
“过去，产业把开发顺序搞反了。”阶跃星辰联合创始人、副总裁朱亦博对观察者网解释说，一款芯片的开发周期需要两年以上，而如今模型迭代的速度只有半年到一年，如果让芯片厂商去适配模型，必然是低效的，可能等到适配做好了，模型早就迭代了。
观察者网了解到，随着大模型算法创新层出不穷，业内对于其硬件适配性早就不乏诟病，甚至有“算法搞创新，infra擦屁股”的说法。
而阶跃星辰选择了在模型开发阶段，就主动去服务于国产芯片的特性。
朱亦博举例说，目前国产芯片的制程工艺、HBM（高带宽内存）等性能还相对落后，导致在算法设计上需要去做一些调整。
阶跃星辰展示的图片显示，在算术强度(Arithmetic intensity)特性上，DeepSeek V3更适配于H800芯片，阿里Qwen 3更偏向H20，而Step 3则与昇腾910B更加接近。

这得益于今年初阶跃星辰发布的一种新型注意力机制架构——多矩阵分解注意力（MFA）。在当时DeepSeek的光芒下，这个成果并未广泛“出圈”，但是相较于DeepSeek采用的多头注意力机制（MLA），MFA能够把推理过程中的键值缓存（KV Cache）用量大幅降低93.7%，对国产芯片更加友好。
换句话说，阶跃星辰主动跳出了一家单纯的大模型企业视角，而是把模型和硬件视为相互协同的系统。沐曦创始人、董事长兼总经理陈维良直言，“阶跃星辰对于国产芯片的了解深度，已经不亚于芯片企业本身”
下面这张图更加直观地展示了阶跃星辰这种思维方式的成果：在昇腾910B上，Step 3的解码效率甚至超过了华为自家的盘古 Pro MoE模型，这还是在盘古 Pro MoE实际激活参数不到Step 3一半的情况下。

如今，阶跃星辰与诸多硬件厂商成立“模芯联盟”，意味着过去技术层面的系统思维，有望走向更深度的战略协同层面。
朱亦博对观察者网介绍，这个联盟的初步目标，是将各自的产品开发进度相互同步，并希望在此基础上建立长期信任以及合作关系，“也许未来新一代芯片上市前，我们就可以比较早地获取它的一些设计。”
这势必会给阶跃星辰的未来模型研发带来独特优势，而与此同时，姜大昕也向观察者网表示，欢迎更多国内大模型企业加入联盟。
下一个圣杯：多模态
阶跃星辰当日带来的另一重惊喜，是首次公布了明确的收入指引——预计今年全年营收达到10亿元。
“AI六小龙”公司此前都没有明确公布过自己的经营状况，可以作为对比的是，有媒体报道智谱2024年的收入约2-3亿元，而亏损可能达到20亿元。
这意味着，阶跃星辰除了与上游硬件厂商的结合，在下游用户的结合上也有独到之处。
其最核心的秘诀自然还是多模态。
过去一年中，阶跃星辰已经发布了十余款多模态模型，包括Step系列的基础模型，以及语音、视觉理解、图像编辑、图像和视频生成、音乐等诸多垂直模型。本次WAIC期间，阶跃亦升级了多模态模型矩阵，包括阶跃首个多模理解生成一体化模型Step 3o Vision，第二代端到端语音大模型Step-Audio 2。
业内普遍认为，相比于语言模型的不断刷榜，多模态正在成为当下大模型和Agent产品落地需求最大和最有利可图的赛道。这让“六小龙”中一直较为低调的阶跃星辰，悄然在商业上开始爆发。
阶跃星辰副总裁李璟对观察者网直言，“多模态模型的优势往往不体现在榜单上，而是体现在客户的实际测试里面，这个可能更有说服力。”
例如，阶跃星辰展示了在一张反光严重的菜单照片上准确识别菜品价格的能力——图文识别算不上新鲜，但在复杂现实环境里的可用性，才是应用落地的关键。
据介绍，阶跃星辰的智能终端Agent目前头部客户效应显著：已覆盖国内超过一半头部国产手机厂商，深度合作打造手机Agent体验；联合吉利推出AI智能座舱，成功实现行业内端到端语音大模型首次量产上车。另一方面，阶跃星辰积极拓展垂直行业的应用，与金融财经、内容创作、零售等领域的行业头部公司深度合作，共同打造面向C端的场景化应用体验。
多模态模型的快速应用落地，除了对大模型企业商业闭环意义重大，也有助于收集更多数据，形成飞轮驱动模型本身进步。
尤其是，尽管多模态模型落地已经如火如荼，但属于多模态的“GPT-4时刻”尚未真正到来。也就是说，如今多模态的推理模型尚不成熟，理解生成一体化尚未实现，世界模型也还较为遥远，这都意味着，其基础架构仍有很大创新空间，国产芯片对模型的适配也可以从更早期阶段起步，避免如语言模型一样的英伟达一家独大。
天数智芯董事长兼CEO盖鲁江指出，“从芯片到整机厂商、模型厂商，再到最终应用场景，这4个环节都是产业链的重要组成部分，如果能够通过联盟建立统一标准，将会省去大量的适配成本。”
上海为何托起半壁江山？
值得注意的是，在上述模芯联盟中，来自上海的企业占据了半壁江山。
作为国内工业化最早、最完整的城市，上海在互联网时代一度显得低调，但随着人工智能爆发，上海的产业地位正在不断提升。
其实，上海人工智能产业的独特优势，正藏在“软硬协同”四个字之中。
互联网时代，企业崇尚轻资产的快速灵活，但在人工智能时代，硬件能力的提升却没有捷径可走。上海坐拥中芯国际和华虹等国内主要晶圆厂，HBM所需的先进封装产能也多位于长三角，这都为GPU企业提供了便利环境。
而上海为应用生态提供的服务也走在全国前列。无问芯穹在本届人工智能大会期间指出，其服务的全球最大人工智能孵化器——上海模速空间，日均Token调用量已成功突破100亿大关。
在无问芯穹与上海算法创新研究院的合作中，双方成功基于3000卡沐曦国产GPU集群，稳定支撑百亿参数大模型训练长达600小时不间断，创造了国产算力模型训练的记录。
《新华财经》一组数据显示，2024年上海人工智能（含大模型）企业达到24733家，较上年增长5.1%，新增注册资本1000万及以上的人工智能企业有104家。
上海国有资本也在频繁参与AI产业的早期投资。今年3月，上海国投先导人工智能产业母基金的首个直投项目就投向了壁仞科技，据悉，上海国投生态体系也将在近期参与投资阶跃星辰的最新一轮融资。
这无疑是一种更高层面上的系统集成。当其他城市还在讨论如何“补链”时，上海已经让AI成为城市基础设施的一部分。

账号		自动登录	找回密码
密码			注册

[科技新闻] 国产AI算力的“阶跃”时刻

马上注册，查看更多内容，享用更多功能，让你轻松玩转社区。

浏览过的版块