找回密码
 注册

QQ登录

只需一步,快速开始

搜索
查看: 29|回复: 4

[数码资讯] 阿里千问发布 Qwen3-Coder-Next:低推理成本编程智能体模型

[复制链接]
  • 打卡等级:已臻大成
  • 打卡总天数:708
发表于 2026-2-4 09:36 | 显示全部楼层 |阅读模式

马上注册,查看更多内容,享用更多功能,让你轻松玩转社区。

您需要 登录 才可以下载或查看,没有账号?注册

×
阿里巴巴千问宣布推出 Qwen3-Coder-Next,一款专为编码代理与本地开发打造的开放权重的语言模型。

该模型基于 Qwen3-Next-80B-A3B-Base 构建,采用混合注意力与 MoE 的新架构;通过大规模可执行任务合成、环境交互与强化学习进行智能体训练,在显著降低推理成本的同时,获得了强大的编程与智能体能力。

IT之家附官方详细介绍如下:

扩展智能体训练
Qwen3-Coder-Next 不依赖单纯的参数扩展,而是聚焦于扩展智能体训练信号。我们使用大规模的可验证编程任务与可执行环境进行训练,使模型能够直接从环境反馈中学习。训练过程包括:

在以代码与智能体为中心的数据上进行持续预训练

在包含高质量智能体轨迹的数据上进行监督微调

领域专精的专家训练(如软件工程、QA、Web / UX 等)

将专家能力蒸馏到单一、可部署的模型中

该配方强调长程推理、工具使用以及从执行失败中恢复,这些对现实世界中的编程智能体至关重要。

在编程智能体基准上的表现

面向智能体的基准结果

下图汇总了在多个广泛使用的编程智能体基准上的表现,包括 SWE-Bench(Verified、Multilingual、Pro)、TerminalBench 2.0 和 Aider。



图中表明:

使用 SWE-Agent 框架时,Qwen3-Coder-Next 在 SWE-Bench Verified 上达到 70% 以上。

在多语言设置以及更具挑战的 SWE-Bench-Pro 基准上保持竞争力。

尽管激活参数规模很小,该模型在多项智能体评测上仍能匹敌或超过若干更大的开源模型。

效率与性能的权衡
下图展示了 Qwen3-Coder-Next 如何在效率与性能之间取得更优的帕累托权衡。



这一对比清晰体现了效率优势:

Qwen3-Coder-Next(3B 激活)的 SWE-Bench-Pro 表现可与激活参数量高 10 到 20 倍的模型相当。

尽管专有的全注意力模型在绝对性能上仍然领先,Qwen3-Coder-Next 在面向低成本智能体部署方面处于强势的帕累托前沿。

总结与未来工作
Qwen3-Coder-Next 在编程智能体基准上展现出良好前景,在实用场景中具备不错的速度与推理能力。尽管其表现可与部分更大的开源模型竞争,仍有很大改进空间。

展望未来,我们认为强大的智能体能力 —— 如自主使用工具、应对难题、管理复杂任务 —— 是更好编程智能体的关键。接下来我们计划提升模型的推理与决策能力、支持更多任务,并根据使用反馈快速迭代更新。
  • 打卡等级:已臻大成
  • 打卡总天数:408
发表于 2026-2-4 09:57 | 显示全部楼层
谢谢楼主分享!
回复 支持 反对

使用道具 举报

  • 打卡等级:已臻大成
  • 打卡总天数:710
发表于 2026-2-4 11:03 | 显示全部楼层
感谢分享!
回复 支持 反对

使用道具 举报

  • 打卡等级:自成一派
  • 打卡总天数:187
发表于 2026-2-4 13:01 | 显示全部楼层
看了LZ的帖子,我只想说一句很好很强大!
回复 支持 反对

使用道具 举报

  • 打卡等级:炉火纯青
  • 打卡总天数:62
发表于 2026-2-4 13:23 | 显示全部楼层
谢谢分享
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 注册

本版积分规则

文字版|手机版|小黑屋|RSS|举报不良信息|精睿论坛 ( 鄂ICP备07005250号-1 )|网站地图

GMT+8, 2026-2-4 14:54 , Processed in 0.163809 second(s), 4 queries , Redis On.

Powered by Discuz! X3.5

© 2001-2026 Discuz! Team.

快速回复 返回顶部 返回列表