华为曝光两大黑科技！打破推理延迟魔咒，大模型从此「秒回」

笑忘心 · 发表于 2025-5-21 12:58

马上注册，查看更多内容，享用更多功能，让你轻松玩转社区。

您需要登录才可以下载或查看，没有账号？注册

×

新智元报道

编辑：编辑部 XYH

【新智元导读】刚刚，昇腾两大技术创新，突破速度瓶颈重塑AI推理。FusionSpec创新的框架设计配合昇腾强大的计算能力，将投机推理框架耗时降至毫秒级，打破延迟魔咒。OptiQuant支持灵活量化，让推理性价比更高。

「前DeepSeek」时代，人们普遍认为「有卡才能推理，没卡寸步难行」。

而DeepSeek却凭借一系列软件层面的架构创新，把这一硬性门槛直接抬走，同时开创了中国人自己的AI大航海时代。

不过，虽然诸如V3和R1等超大规模MoE性能卓越，但在部署时却存在着非常大的挑战——推理的速度和延迟。

心理学和行业实验一致表明，LLM吐出第一个token所用的时间（TTFT），以及每秒生成的速度直接决定了用户的「等候感」。超过100毫秒即可感知，超过2秒即可打断思考。

对于AI应用来说，这里有一个简单的公式可以说明：更快速度+更低延迟=更高满意度+更高转化率。

为了解决这一核心问题，华为通过两个全新的方法和思路，对MoE模型进行了专门的推理优化，让中国模型在中国的服务器上的推理速度来到了全新的高度！

FusionSpec打破了大模型推理「延迟魔咒」，依托于昇腾「超高」计算带宽比的特点，创新性地重塑了主模型和投机模型的流程，结合轻量级步间准备，将投机推理框架耗时做到了1ms。

OptiQuant不仅支持主流量化算法，同时具备灵活的自定义组合能力，涵盖了业内主流评测数据集，为大模型推理提供了更强性价比。

华为挑战MoE推理的「两把刷子」

早期LLM的推理通常使用自回归解码方式，即「每次只能预测下一个token」。

且需将历史输出作为输入进行下一步解码，导致推理过程串行、效率低下、计算密集度低。

如何解决这个问题？投机推理技术应运而生。

投机推理（Speculative Inference），也被称为推测性解码，其核心思想是利用计算代价远低于大模型的小模型（也称为投机模型），先行对后续可能的输出进行猜测，然后由大模型对这些猜测结果进行验证，从而实现并行化推理，提升整体推理速度。

这个道理其实也简单，就像写作文的时候，你先在草稿上「预测」几个可能句子（投机模型猜测），再挑出合适的句子写到正式作文里（大模型或者叫主模型验证）。

如果草稿上预测的都不对，那就把作文里的擦掉重写就好了（回退修正）。但要是预测对了，写作文的速度（大模型的输出速度）就能更快——毕竟草稿纸上的修改成本远低于正式作文。

这种「先试错再优化」的思路，让大模型能更快、更准的给出答案（也就是推理速度又快又好）。

然而，是想要完美将投机模型和主模型相结合，依然面临很大的困难。

1.推测准确性与草稿生成效率的权衡

小模型的主要任务是快速生成可能的输出，但这往往与生成结果的准确性相矛盾。如何在两者之间找到最佳平衡点，是投机推理技术面临的一大挑战。

2.批处理推理场景的适配

在实际应用中，批处理推理可以提高系统的整体吞吐量。投机推理本质上来说是用空闲的算力换取更高的吞吐，需要处理好投机模型和投机框架引入的耗时，不然无法发挥投机推理在批处理场景下的加速潜力。

另一方面，仅有投机推理技术也不够，推理性能提升还需与模型压缩、量化、增量式解码等有效集成。

超大规模MoE动辄百亿、千亿参数量，对显存带宽、计算能力和互联网带宽需求，提出了极高要求。尤其长序列推理中的KV cache，更是堪称显存「无底洞」。

在此背景下，量化技术就成了缓解资源约束、优化部署效率的「救命稻草」——在大幅降低资源占用的同时，还能尽量保留模型精度。

以INT8量化为例：

权重量化可以将模型参数的显存需求降低50%，配合激活值量化，利用Cube-Core的INT8算力加速矩阵乘运算。
KV cache量化则进一步压缩了显存占用，支持更长的序列和更高的并发请求，大幅提升了Decode阶段的系统吞吐量。

尽管低比特量化被视为LLM推理的灵丹妙药，但若要实现高质高效的量化，并非易事。

1.精度的损失

将模型参数从高精度压缩到低精度，不可避免会导致精度下降。尤其是，在极低比特数（如二值）情况下更为明显。

2.算法的「两难抉择」

如何去设计高效、抗噪的量化算法，在保持精度同时，降低计算和访存复杂度，依旧是行业研究重点。

过于复杂的算法，虽能提升精度，但会增加计算开销，抵销量化的效率优势。而过于简单的算法，又会牺牲过多精度，最终导致模型效果不佳。

3.硬件兼容的适配

量化后的模型还需与硬件深度适配，而现有的量化算法在昇腾硬件上还有很多创新优化的空间。

此外，量化误差的控制和推理过程中的动态调整策略，也充满了挑战。

4.校准集泛化性缺失

校准集的泛化性缺失导致了在很多任务上，难以达到与原有模型相近的精度水平，甚至在某些场景下精度下降十分严重。

不论是投机推理，还是低比特量化，都是推理优化过程核心，它们所面临的难题，是LLM飙速推理路上最大的绊脚石。

而现在，华为的这套方案，彻底攻克所有挑战，解锁了AI模型的中国速度。

投机推理框架FusionSpec

创1ms奇迹

具体来说，在投机推理方面，华为团队提出了投机推理框架FusionSpec。

FusionSpec充分利用了昇腾服务器高计算带宽比的特点，在低时延大并发场景下，深度优化了DeepSeek提出的MTP在昇腾上的推理性能，将投机推理框架耗时减小至1ms，并在三个方面进行了重大创新：

1.考虑到DeepSeek的模型架构，MTP层需要主体模型的最后一层结果作为输入，将MTP层的执行直接排在主体模型执行之后。

这样做带来两个优势：

优化后的调度顺序避免了推理的步间数据传输
在PD分离的部署场景下，投机模型的后置解耦了PD分离系统与投机框架，同时有效减少了节点间的数据传输

昇腾基于PD分离部署的vLLM框架调度示意图

2.参考MTP层训练模式，将MTP层视为模型的一部分，注意力算子复用主体模型的控制参数。

DeepSeek V3/R1为代表的主流的大语言模型采用旋转位置编码RoPE。在使用投机模型进行预测时，会按实际推理的token个数进行位置编码。

但对MTP层而言，计算时会忽略输入的第0个token。因此，研究团队把MTP层输入的第0个token舍去，前移其余token，并复用主体模型的控制参数。

而RoPE保证了对所有token进行平移后的attention score不发生改变。这样，就可以保证MTP层的正确计算，同时节省CPU上的准备时间，并简化整个系统的block管理。

·参数复用省去了控制参数的重新构造，降低了框架耗时

通过主体模型前置与流程拼接，将单步投机推理中输入准备从两次降低为一次，避免主体模型和投机模型之间CPU同步打断流水，压缩了单步推理内主体模型与投机模型间的框架耗时，使得投机推理的整体框架时延与非投机场景一致。

基于上述优化，FusionSpec框架实现了在较低时延下的高并发、大吞吐。

3.实现了NPU上的轻量步间准备，支撑了vLLM v0的multi-step以及vLLM v1前后处理全异步，进一步降低了步间的框架耗时。

除了模型结构和框架设计优化外，在算子级别的细化加速同样关键——这就是FusionSpec进一步优化的重点。

· 投机场景MLA算子加速

DeepSeek提出的对多头潜注意力机制MLA，通过对Key和Value的低秩联合压缩，不仅大幅减少了所需的KV缓存量，同时性能还超过了传统的MHA。

为了充分利用昇腾的计算能力，压缩端到端输出时间，FusionSpec进一步优化了投机场景MLA计算流程，减少矩阵的搬运时间。

投机场景下多头潜在注意力MLA算子优化

·TopK、TopP算子加速

在投机推理场景中，若预测m个token，单步推理需进行1+m次词表采样操作，所以采样操作的速度变得更加重要。

采样操作一般包含温度、TopK、TopP三步，其中TopK、TopP需要排序，并且计算前缀和，这些是采样操作的瓶颈。

未来，FusionSpec将采用流式过滤策略、昇腾归并排序API优化TopK、TopP计算。

量化框架OptiQuant

让MoE巨兽飞起来

在量化方面，华为团队则提出了OptiQuant量化框架。

它不仅兼容业界主流量化算法，通过一系列功能创新，为高效部署提供了强力支撑。具体来说，它有四大核心亮点：

· 丰富的量化和数值类型

OptiQuant支持了Int2/4/8和FP8/HiFloat8等数据类型，与业界Qserve、HQQ、LUT等主流量化方法兼容。

在此基础上，OptiQuant创新性提出「可学习截断」、「量化参数优化」等算法，将量化误差进一步降低。

· 业内主流评测数据集

OptiQuant支持多样化评测任务，包括判断题、问答题、代码题和数学题等多个方向，覆盖了十种常见的语言。

为了提升量化模型的泛化能力，OptiQuant还引入了混合校准集的方法，按一定的比例混合不同数据集。

· 量化权重以及元数据的生成

OptiQuant提出了自适应层间混精算法和PD分离量化权重，并且根据对应的量化配置生成对应的权重参数，通过去冗余技术减少参数保存的参数量。

同时，FlexSmoothQuant等算法在数据校准过程中，将搜索到的元数据进行保存，并用于后续推理过程。

· 量化权重推理

OptiQuant提出了KVCache量化和MoE TopK专家剪枝技术。

结合昇腾亲和的量化算子，OptiQuant通过高效数据并行/流水并行，针对不同大小的大语言模型实现精度验证性能加速，将对各个数据集精度评估性能提高了5x以上。

此外，OptiQuant还支持Vector Quantization、DFloat11、可逆变换、量化模型微调等技术点。

OptiQuant量化框架

通过OptiQuant和相关优化算法，华为实现了W8A8C16/W4A8C16的模型精度，媲美FP8精度的效果，并充分发挥了昇腾硬件性能。

表1：DeepSeek-R1模型精度测试结果

注1：如无特殊说明, 测试为单次结果

注2：测试3次以上结果取平均

注3：单次测试结果

表2：DeepSeek-V3-0324模型精度测试结果

注1：单次测试结果

下一步，团队还将探索PD差异量化、KV cache量化、TopK专家剪枝、通用的等价变换建模、和量化微调等方向，实现更高效、更低比特的权重、激活和KV cache的量化模型推理技术。

总而言之，FusionSpec和OptiQuant的双剑合璧，将为超大规模MoE模型推理开辟了全新路径。

这两大框架的提出，打破了LLM推理的延迟魔咒、资源瓶颈。

这不仅仅是一次技术的突破，更是中国AI在全球舞台上的一次强势发声。

未来，FusionSpec推理框架和OptiQuant量化框架有机融合，将促使更多的创新涌现出来。

技术报告：

FuionSpec：https://gitcode.com/ascend-tribe/ascend-inference-cluster/blob/main/FusionSpec/%E6%98%87%E8%85%BE%E9%AB%98%E5%90%9E%E5%90%90%E6%8A%95%E6%9C%BA%E6%8E%A8%E7%90%86%E6%A1%86%E6%9E%B6FusionSpec.pdf

OptiQuant：https://gitcode.com/ascend-tribe/ascend-inference-cluster/blob/main/OptiQuant/OptiQuant-%E6%98%87%E8%85%BE%E4%BA%B2%E5%92%8C%E7%9A%84DeepSeek%E6%A8%A1%E5%9E%8B%E9%87%8F%E5%8C%96%E6%8A%80%E6%9C%AF.pdf

技术博客：

FusionSpec：https://gitcode.com/ascend-tribe/ascend-inference-cluster/blob/main/FusionSpec/ascend-inference-cluster-fusionspec.md

OptiQuant：https://gitcode.com/ascend-tribe/ascend-inference-cluster/blob/main/OptiQuant/ascend-inference-cluster-optiquant.md

hbadsl · 发表于 2025-5-21 15:53

精品文章，优秀！

账号		自动登录	找回密码
密码			注册

[科学观察] 华为曝光两大黑科技！打破推理延迟魔咒，大模型从此「秒回」

马上注册，查看更多内容，享用更多功能，让你轻松玩转社区。

浏览过的版块