这得益于今年初阶跃星辰发布的一种新型注意力机制架构——多矩阵分解注意力(MFA)。在当时DeepSeek的光芒下,这个成果并未广泛“出圈”,但是相较于DeepSeek采用的多头注意力机制(MLA),MFA能够把推理过程中的键值缓存(KV Cache)用量大幅降低93.7%,对国产芯片更加友好。
换句话说,阶跃星辰主动跳出了一家单纯的大模型企业视角,而是把模型和硬件视为相互协同的系统。沐曦创始人、董事长兼总经理陈维良直言,“阶跃星辰对于国产芯片的了解深度,已经不亚于芯片企业本身”
下面这张图更加直观地展示了阶跃星辰这种思维方式的成果:在昇腾910B上,Step 3的解码效率甚至超过了华为自家的盘古 Pro MoE模型,这还是在盘古 Pro MoE实际激活参数不到Step 3一半的情况下。