找回密码
 注册

QQ登录

只需一步,快速开始

搜索
查看: 67|回复: 4

[数码资讯] 阿里发布国内首个“混合推理模型”Qwen3 并开源

[复制链接]
  • 打卡等级:已臻大成
  • 打卡总天数:452
发表于 2025-4-29 08:16 | 显示全部楼层 |阅读模式

马上注册,查看更多内容,享用更多功能,让你轻松玩转社区。

您需要 登录 才可以下载或查看,没有账号?注册

×
今日凌晨,阿里巴巴发布了新一代通义千问 Qwen3 模型,一举登顶全球最强开源模型。

Models

Layers

Heads

(Q / KV)

Tie Embedding

Context Length

Qwen3-0.6B

28

16 / 8

Yes

32K

Qwen3-1.7B

28

16 / 8

Yes

32K

Qwen3-4B

36

32 / 8

Yes

32K

Qwen3-8B

36

32 / 8

No

128K

Qwen3-14B

40

40 / 8

No

128K

Qwen3-32B

64

64 / 8

No

128K

Models

Layers

Heads

(Q / KV)

Experts (Total/ Activated)

Context Length

Qwen3-30B-A3B

48

32 / 4

128 / 8

128K

Qwen3-235B-A22B

94

64 / 4

128 / 8

128K

这是国内首个“混合推理模型”,将“快思考”与“慢思考”集成进同一个模型,大大节省算力消耗。

经过后训练的模型,例如 Qwen3-30B-A3B,以及它们的预训练基座模型(如 Qwen3-30B-A3B-Base)已在各大平台上开放使用。同时,阿里云开源了两个 MoE 模型的权重:

Qwen3-235B-A22B,一个拥有 2350 多亿总参数和 220 多亿激活参数的大模型

Qwen3-30B-A3B,一个拥有约 300 亿总参数和 30 亿激活参数的小型 MoE 模型。

此外,六个 Dense 模型也已开源,包括 Qwen3-32B、Qwen3-14B、Qwen3-8B、Qwen3-4B、Qwen3-1.7B 和 Qwen3-0.6B,均在 Apache 2.0 许可下开源。
  • 打卡等级:自成一派
  • 打卡总天数:272
发表于 2025-4-29 08:24 | 显示全部楼层
感谢分享!
回复 支持 反对

使用道具 举报

  • 打卡等级:已臻大成
  • 打卡总天数:455
发表于 2025-4-29 10:56 | 显示全部楼层
看看新闻,感谢分享
回复 支持 反对

使用道具 举报

  • 打卡等级:已臻大成
  • 打卡总天数:447
发表于 2025-4-29 13:00 | 显示全部楼层
感谢楼主分享。
回复 支持 反对

使用道具 举报

  • 打卡等级:自成一派
  • 打卡总天数:183
发表于 2025-4-29 13:09 | 显示全部楼层
谢谢楼主分享!
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 注册

本版积分规则

文字版|手机版|小黑屋|RSS|举报不良信息|精睿论坛 ( 鄂ICP备07005250号-1 )|网站地图

GMT+8, 2025-5-25 07:37 , Processed in 0.148475 second(s), 5 queries , Redis On.

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表