马上注册,查看更多内容,享用更多功能,让你轻松玩转社区。
您需要 登录 才可以下载或查看,没有账号?注册
×

新智元报道 编辑:编辑部 XYH 【新智元导读】刚刚,昇腾两大技术创新,突破速度瓶颈重塑AI推理。FusionSpec创新的框架设计配合昇腾强大的计算能力,将投机推理框架耗时降至毫秒级,打破延迟魔咒。OptiQuant支持灵活量化,让推理性价比更高。 「前DeepSeek」时代,人们普遍认为「有卡才能推理,没卡寸步难行」。 而DeepSeek却凭借一系列软件层面的架构创新,把这一硬性门槛直接抬走,同时开创了中国人自己的AI大航海时代。 不过,虽然诸如V3和R1等超大规模MoE性能卓越,但在部署时却存在着非常大的挑战——推理的速度和延迟。 心理学和行业实验一致表明,LLM吐出第一个token所用的时间(TTFT),以及每秒生成的速度直接决定了用户的「等候感」。超过100毫秒即可感知,超过2秒即可打断思考。 对于AI应用来说,这里有一个简单的公式可以说明:更快速度+更低延迟=更高满意度+更高转化率。 
为了解决这一核心问题,华为通过两个全新的方法和思路,对MoE模型进行了专门的推理优化,让中国模型在中国的服务器上的推理速度来到了全新的高度!
华为挑战MoE推理的「两把刷子」 早期LLM的推理通常使用自回归解码方式,即「每次只能预测下一个token」。 且需将历史输出作为输入进行下一步解码,导致推理过程串行、效率低下、计算密集度低。 如何解决这个问题?投机推理技术应运而生。 投机推理(Speculative Inference),也被称为推测性解码,其核心思想是利用计算代价远低于大模型的小模型(也称为投机模型),先行对后续可能的输出进行猜测,然后由大模型对这些猜测结果进行验证,从而实现并行化推理,提升整体推理速度。 这个道理其实也简单,就像写作文的时候,你先在草稿上「预测」几个可能句子(投机模型猜测),再挑出合适的句子写到正式作文里(大模型或者叫主模型验证)。 
如果草稿上预测的都不对,那就把作文里的擦掉重写就好了(回退修正)。但要是预测对了,写作文的速度(大模型的输出速度)就能更快——毕竟草稿纸上的修改成本远低于正式作文。 这种「先试错再优化」的思路,让大模型能更快、更准的给出答案(也就是推理速度又快又好)。 然而,是想要完美将投机模型和主模型相结合,依然面临很大的困难。 1.推测准确性与草稿生成效率的权衡 小模型的主要任务是快速生成可能的输出,但这往往与生成结果的准确性相矛盾。如何在两者之间找到最佳平衡点,是投机推理技术面临的一大挑战。 2.批处理推理场景的适配 在实际应用中,批处理推理可以提高系统的整体吞吐量。投机推理本质上来说是用空闲的算力换取更高的吞吐,需要处理好投机模型和投机框架引入的耗时,不然无法发挥投机推理在批处理场景下的加速潜力。 另一方面,仅有投机推理技术也不够,推理性能提升还需与模型压缩、量化、增量式解码等有效集成。 超大规模MoE动辄百亿、千亿参数量,对显存带宽、计算能力和互联网带宽需求,提出了极高要求。尤其长序列推理中的KV cache,更是堪称显存「无底洞」。 在此背景下,量化技术就成了缓解资源约束、优化部署效率的「救命稻草」——在大幅降低资源占用的同时,还能尽量保留模型精度。 以INT8量化为例:
尽管低比特量化被视为LLM推理的灵丹妙药,但若要实现高质高效的量化,并非易事。 1.精度的损失 将模型参数从高精度压缩到低精度,不可避免会导致精度下降。尤其是,在极低比特数(如二值)情况下更为明显。 2.算法的「两难抉择」 如何去设计高效、抗噪的量化算法,在保持精度同时,降低计算和访存复杂度,依旧是行业研究重点。 过于复杂的算法,虽能提升精度,但会增加计算开销,抵销量化的效率优势。而过于简单的算法,又会牺牲过多精度,最终导致模型效果不佳。 3.硬件兼容的适配 量化后的模型还需与硬件深度适配,而现有的量化算法在昇腾硬件上还有很多创新优化的空间。 此外,量化误差的控制和推理过程中的动态调整策略,也充满了挑战。 4.校准集泛化性缺失 校准集的泛化性缺失导致了在很多任务上,难以达到与原有模型相近的精度水平,甚至在某些场景下精度下降十分严重。 不论是投机推理,还是低比特量化,都是推理优化过程核心,它们所面临的难题,是LLM飙速推理路上最大的绊脚石。 而现在,华为的这套方案,彻底攻克所有挑战,解锁了AI模型的中国速度。 投机推理框架FusionSpec 创1ms奇迹 具体来说,在投机推理方面,华为团队提出了投机推理框架FusionSpec。 FusionSpec充分利用了昇腾服务器高计算带宽比的特点,在低时延大并发场景下,深度优化了DeepSeek提出的MTP在昇腾上的推理性能,将投机推理框架耗时减小至1ms,并在三个方面进行了重大创新: 
1.考虑到DeepSeek的模型架构,MTP层需要主体模型的最后一层结果作为输入,将MTP层的执行直接排在主体模型执行之后。 这样做带来两个优势:

昇腾基于PD分离部署的vLLM框架调度示意图 2.参考MTP层训练模式,将MTP层视为模型的一部分,注意力算子复用主体模型的控制参数。 DeepSeek V3/R1为代表的主流的大语言模型采用旋转位置编码RoPE。在使用投机模型进行预测时,会按实际推理的token个数进行位置编码。 但对MTP层而言,计算时会忽略输入的第0个token。因此,研究团队把MTP层输入的第0个token舍去,前移其余token,并复用主体模型的控制参数。 而RoPE保证了对所有token进行平移后的attention score不发生改变。这样,就可以保证MTP层的正确计算,同时节省CPU上的准备时间,并简化整个系统的block管理。 ·参数复用省去了控制参数的重新构造,降低了框架耗时 通过主体模型前置与流程拼接,将单步投机推理中输入准备从两次降低为一次,避免主体模型和投机模型之间CPU同步打断流水,压缩了单步推理内主体模型与投机模型间的框架耗时,使得投机推理的整体框架时延与非投机场景一致。 基于上述优化,FusionSpec框架实现了在较低时延下的高并发、大吞吐。 3.实现了NPU上的轻量步间准备,支撑了vLLM v0的multi-step以及vLLM v1前后处理全异步,进一步降低了步间的框架耗时。 
除了模型结构和框架设计优化外,在算子级别的细化加速同样关键——这就是FusionSpec进一步优化的重点。 · 投机场景MLA算子加速 DeepSeek提出的对多头潜注意力机制MLA,通过对Key和Value的低秩联合压缩,不仅大幅减少了所需的KV缓存量,同时性能还超过了传统的MHA。 为了充分利用昇腾的计算能力,压缩端到端输出时间,FusionSpec进一步优化了投机场景MLA计算流程,减少矩阵的搬运时间。 
投机场景下多头潜在注意力MLA算子优化 ·TopK、TopP算子加速 在投机推理场景中,若预测m个token,单步推理需进行1+m次词表采样操作,所以采样操作的速度变得更加重要。 采样操作一般包含温度、TopK、TopP三步,其中TopK、TopP需要排序,并且计算前缀和,这些是采样操作的瓶颈。 未来,FusionSpec将采用流式过滤策略、昇腾归并排序API优化TopK、TopP计算。 量化框架OptiQuant 让MoE巨兽飞起来 在量化方面,华为团队则提出了OptiQuant量化框架。 它不仅兼容业界主流量化算法,通过一系列功能创新,为高效部署提供了强力支撑。具体来说,它有四大核心亮点: · 丰富的量化和数值类型 OptiQuant支持了Int2/4/8和FP8/HiFloat8等数据类型,与业界Qserve、HQQ、LUT等主流量化方法兼容。 在此基础上,OptiQuant创新性提出「可学习截断」、「量化参数优化」等算法,将量化误差进一步降低。 · 业内主流评测数据集 OptiQuant支持多样化评测任务,包括判断题、问答题、代码题和数学题等多个方向,覆盖了十种常见的语言。 为了提升量化模型的泛化能力,OptiQuant还引入了混合校准集的方法,按一定的比例混合不同数据集。 · 量化权重以及元数据的生成 OptiQuant提出了自适应层间混精算法和PD分离量化权重,并且根据对应的量化配置生成对应的权重参数,通过去冗余技术减少参数保存的参数量。 同时,FlexSmoothQuant等算法在数据校准过程中,将搜索到的元数据进行保存,并用于后续推理过程。 · 量化权重推理 OptiQuant提出了KVCache量化和MoE TopK专家剪枝技术。 结合昇腾亲和的量化算子,OptiQuant通过高效数据并行/流水并行,针对不同大小的大语言模型实现精度验证性能加速,将对各个数据集精度评估性能提高了5x以上。 此外,OptiQuant还支持Vector Quantization、DFloat11、可逆变换、量化模型微调等技术点。 
OptiQuant量化框架 通过OptiQuant和相关优化算法,华为实现了W8A8C16/W4A8C16的模型精度,媲美FP8精度的效果,并充分发挥了昇腾硬件性能。 表1:DeepSeek-R1模型精度测试结果 
注1:如无特殊说明, 测试为单次结果 注2:测试3次以上结果取平均 注3:单次测试结果 表2:DeepSeek-V3-0324模型精度测试结果 
注1:单次测试结果 下一步,团队还将探索PD差异量化、KV cache量化、TopK专家剪枝、通用的等价变换建模、和量化微调等方向,实现更高效、更低比特的权重、激活和KV cache的量化模型推理技术。 总而言之,FusionSpec和OptiQuant的双剑合璧,将为超大规模MoE模型推理开辟了全新路径。 这两大框架的提出,打破了LLM推理的延迟魔咒、资源瓶颈。 这不仅仅是一次技术的突破,更是中国AI在全球舞台上的一次强势发声。 未来,FusionSpec推理框架和OptiQuant量化框架有机融合,将促使更多的创新涌现出来。 技术报告: FuionSpec:https://gitcode.com/ascend-tribe/ascend-inference-cluster/blob/main/FusionSpec/%E6%98%87%E8%85%BE%E9%AB%98%E5%90%9E%E5%90%90%E6%8A%95%E6%9C%BA%E6%8E%A8%E7%90%86%E6%A1%86%E6%9E%B6FusionSpec.pdf OptiQuant:https://gitcode.com/ascend-tribe/ascend-inference-cluster/blob/main/OptiQuant/OptiQuant-%E6%98%87%E8%85%BE%E4%BA%B2%E5%92%8C%E7%9A%84DeepSeek%E6%A8%A1%E5%9E%8B%E9%87%8F%E5%8C%96%E6%8A%80%E6%9C%AF.pdf 技术博客: FusionSpec:https://gitcode.com/ascend-tribe/ascend-inference-cluster/blob/main/FusionSpec/ascend-inference-cluster-fusionspec.md OptiQuant:https://gitcode.com/ascend-tribe/ascend-inference-cluster/blob/main/OptiQuant/ascend-inference-cluster-optiquant.md
|