华为开源 SINQ AI 量化技术

东苑 · 发表于 2025-10-6 09:42

马上注册，查看更多内容，享用更多功能，让你轻松玩转社区。

您需要登录才可以下载或查看，没有账号？注册

×

华为苏黎世计算系统实验室于 9 月 26 日发布全新开源量化（Quantization）技术 SINQ（Sinkhorn 归一化量化），旨在大幅降低大语言模型（LLM）的显存需求与运行成本。

这项技术无需复杂的校准过程，可直接集成至现有工作流，并且其代码已通过 Apache 2.0 许可证在 GitHub 和 Hugging Face 上开放，允许任何组织免费使用、修改和商业化部署。

SINQ 的核心优势在于其卓越的压缩性能。根据测试，该技术能将不同规模模型的显存占用普遍削减 60% 至 70%。这意味着，过去需要超过 60GB 显存才能运行的大型模型，现在仅需约 20GB 的环境即可部署。

此前需要企业级 GPU（如英伟达 A100 80GB 或 H100）计算的任务，现在仅用一张售价约 1600 美元的消费级显卡（如英伟达 RTX 4090）便可胜任。对于云端用户而言，每小时的算力成本也随之锐减。

该技术通过两大创新实现了性能突破。首先，SINQ 采用“双轴采样”策略，替代了传统的单尺度因子量化，通过分别为矩阵的行和列设置独立的缩放向量，更灵活地分散量化误差，有效抑制了异常值的影响。

其次，SINQ 引入了一种受 Sinkhorn 迭代启发的快速归一化算法，用于平衡矩阵行列的标准差，从而最小化“矩阵不平衡”现象，提升了量化后的模型精度。

wing6 · 发表于 2025-10-6 11:12

感谢分享！

yzszh64 · 发表于 2025-10-6 11:30

谢谢分享。

账号		自动登录	找回密码
密码			注册

[数码资讯] 华为开源 SINQ AI 量化技术

马上注册，查看更多内容，享用更多功能，让你轻松玩转社区。