东苑 发表于 2026-6-6 09:29

腾讯混元提出 Stem 稀疏注意力算法,首字延迟降低 3.6 倍

腾讯混元今日宣布提出 Stem 稀疏注意力算法,已被机器学习顶会 ICML-26 收录。



官方表示,Stem 稀疏注意力算法从“因果信息流”重新审视块级稀疏,用 Token 位置衰减(TPD)和输出感知度量(OAM)两大创新,仅用 25% 算力就逼近稠密注意力的精度。配套的 HPC 算子库则将这份理论加速比真正转化为端到端的实测性能。



▲ Stem 在 Hy3 preview(W8A8-FP8)上更贴近生产环境的真实落地数据
根据 Stem 算法 × HPC 算子的全栈加速方案,算法层面,Stem 通过 Token 位置衰减(TPD)和输出感知度量(OAM)实现 25% 预算下的近无损精度;算子层面,HPC 开源的 Stem+BSA 算子将稀疏收益转化为真实硬件加速,128K 上下文下首字延迟降低 3.6 倍。

com2 发表于 2026-6-6 10:00

楼谢谢主分享!

yzszh64 发表于 2026-6-6 10:31

感谢分享。

wing6 发表于 2026-6-6 10:56

感谢分享![喜欢]
页: [1]
查看完整版本: 腾讯混元提出 Stem 稀疏注意力算法,首字延迟降低 3.6 倍