找回密码
 注册

QQ登录

只需一步,快速开始

搜索
查看: 72|回复: 1

[科技新闻] 还是阿里千问3打响了第一枪,悬念在于领先DeepSeek多少天

[复制链接]
  • 打卡等级:已臻大成
  • 打卡总天数:411
发表于 2025-4-29 12:18 | 显示全部楼层 |阅读模式

马上注册,查看更多内容,享用更多功能,让你轻松玩转社区。

您需要 登录 才可以下载或查看,没有账号?注册

×
阿里千问3强势发布,超越DeepSeek-R1、OpenAI-o1,成为最强开源模型。
此前传闻DeepSeek将于4月底5月初发布新模型,业内相信应该是R2。在进入4月最后一周的倒计时期间,阿里千问打响了第一枪。
千问3系列的8款模型同时开源亮相,MoE的和稠密的都有,大的小的一起上,支持119种语言,混合了快思考与慢思考,对智能体开发友好,还准备拥抱”经验时代“,看似不给对方留下反击的机会。
2款MoE模型 旗舰版 Qwen3-235B-A22B,激活参数仅22B,部署成本为 DeepSeek R1 的三分之一。迷你版 Qwen3-30B-A3B,激活参数仅3B,整体性能堪比 Qwen2.5-32B,适合消费级显卡部署。
6款稠密模型 0.6B、1.7B、4B、8B、14B、32B。
0.6B及1.7B支持开发者搞实验模型,对科研也很友好;4B用于手机;8B用于电脑或者汽车;14B 适合普通开发者有几张卡玩转起来;32B是开发者和企业的最爱,支持企业大规模部署商用,也是后续研发的绝佳模型尺寸。
全球最强开源模型,千问3是国内第一个敢说全面超越 R1 的模型,之前都是比肩、媲美、能打、掰手腕、打来打去......
混合推理模型 复杂问题慢思考,简单问题快思考;长考秒回,自动切换,提升智力+节省算力。混合推理的大模型路线,正成为顶级大模型公司争相突破的前沿技术领域。
本地部署成本低  旗舰模型仅需4张H20就能本地部署,成本比R1下降超6成。
智能体,原生支持 MCP 协议,提升了代码能力,工具调用顺手。
支持119种语言和方言许多国家和地区没有技术能力开发自己语种的AI大模型,随着千问3的开源,全球各国各地区的人们从此有了自己的AI大模型。这一点是瞄着Llama 4的近200种语言。
训练数据 36 万亿 token,不仅从网络抓取内容,还大量提取 PDF 的内容、大量合成代码片段。
瞄着o1和R1打 从下面分数可以看出,Qwen3旗舰的MoE和稠密模型,各项基准得分基本上完胜了当前的主流闭源和开源推理模型,甚至有些方面也可以和风头正健的Gemini2.5-pro掰下手腕。
1.webp

小而美,参数少即是多 小型MoE模型Qwen3-30B-A3B,激活参数数量仅为QwQ-32B的十分之一,却在性能上实现了超越;即便是极小规模的Qwen3-4B,也能媲美Qwen2.5-72B-Instruct。从下表可以看出,已经可以胜过参数量十倍于它们的主流通用模型DeepSeek-V3、GPT-4o。
2.webp

预训练,功夫在数据
Qwen3使用的数据集得到了大幅扩展,约36万亿tokens,覆盖了119种语言和方言。数据集不仅来自网页,而且还利用Qwen2.5-VL模型从PDF等文档中提取文本内容,并通过Qwen2.5模型进一步提升质量。为了增加数学和编程类数据量,Qwen2.5-Math和Qwen2.5-Coder还用来生成了大量合成数据,包括教材、问答对以及代码片段。
预训练过程分为三个阶段:

  • 第一阶段(S1),以4K上下文长度,在超过30万亿tokens上进行了预训练,主要赋予模型基础的语言能力和通用知识。
  • 第二阶段(S2),通过提高知识密集型数据(如STEM、编程和推理任务)的占比,对数据集进行了优化,并在此基础上又进行了额外5万亿tokens的预训练,进一步强化模型的推理和专业领域能力。
  • 最后阶段,引入近万亿高质量的长文本数据,将训练上下文长度扩展至32K tokens,确保模型能够高效处理更长的输入。
三大开源模型比拼
3.webp

Qwen3系列稠密基座模型仅用近一半的参数量,在的整体性能已经能够媲美Qwen2.5基座模型,即如Qwen3-1.7B/4B/8B/14B/32B-Base,分别可达到Qwen2.5-3B/7B/14B/32B/72B-Base的性能水平。
值得一提的是,在STEM领域、编程和推理等任务上,Qwen3稠密基座模型在许多情况下甚至超越了更大规模的Qwen2.5模型。
而Qwen3-MoE只使用约10%的激活参数,就能达到Qwen2.5稠密基座模型相似的性能。大幅度降低了训练和推理成本。
后训练混合推理
千问3意在打造兼具逐步推理能力快速响应能力的混合模型,训练流程分四阶段:

  • 长链式推理(CoT)冷启动,使用多样化的长链式推理(CoT)数据对模型进行了微调,覆盖了数学、编程、逻辑推理、STEM问题等多个任务和领域,旨在赋予模型基础的推理能力。
  • 基于推理的强化学习(RL),专注于扩大强化学习的计算规模,并通过基于规则的奖励机制,提升模型在探索与利用方面的能力。
  • 思考模式融合,将非思考模式(如快速指令响应)的能力融合到已有推理能力的模型中。具体做法是:使用由第二阶段强化后的思考模型生成的混合数据(结合长链推理数据和常规指令微调数据)进行再次微调,从而实现推理能力与快速响应能力的无缝结合。
  • 通用强化学习(General RL)。在20多个通用领域任务上应用强化学习,进一步增强模型的综合能力,并修正潜在的不良行为。这些任务包括指令跟随(instruction following)、格式遵循(format following)、智能体能力(agent capabilities)等。
4.webp

目前,通义千问Qwen衍生模型数量已突破10万,超越美国Llama模型,成为全球第一开源模型。通义千问Qwen在全球下载量超过3亿,在HuggingFace社区2024年全球模型下载量中千问Qwen占比超30%,稳居第一。在2025年2月的Huggingface全球开源大模型榜单(Open LLM Leaderboard)中,排名前十的开源模型全部都是基于千问Qwen二次开发的衍生模型。

阿里通义千问透露出下一代模型的努力方向,包括引入环境反馈机制推进强化学习,实现更长链条的推理能力,从一个专注于训练模型的时代,迈向一个以训练智能体为核心的新时代。
开源之都杭州城内,DeepSeek想要AGI,阿里巴巴既要AGI也要ASI。
  • 打卡等级:已臻大成
  • 打卡总天数:411
发表于 2025-4-29 17:50 | 显示全部楼层
太卷了,希望留口饭给DS吃,毕竟他们是希望之星
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 注册

本版积分规则

文字版|手机版|小黑屋|RSS|举报不良信息|精睿论坛 ( 鄂ICP备07005250号-1 )|网站地图

GMT+8, 2025-5-25 17:54 , Processed in 0.181761 second(s), 5 queries , Redis On.

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表