夜间模式 切换到宽版

 找回密码
 注册

QQ登录

只需一步,快速开始

搜索
查看: 67|回复: 4

[数码资讯] 研究人员开源 Sky-T1 推理 AI 模型

[复制链接]
  • 打卡等级:功行圆满
  • 打卡总天数:853
发表于 2025-1-13 08:17 | 显示全部楼层 |阅读模式

马上注册,查看更多内容,享用更多功能,让你轻松玩转社区。

您需要 登录 才可以下载或查看,没有账号?注册

×
本周,来自加州大学伯克利分校 Sky Computing 实验室的研究团队 NovaSky 发布了一款名为 Sky-T1-32B-Preview 的推理模型。该模型在多项关键基准测试中的表现可与 OpenAI 早期版本的 o1 模型相媲美。值得注意的是,Sky-T1-32B-Preview 似乎是首个真正意义上的开源推理模型,其训练数据集和代码均已公开,用户可以从零开始复现该模型。



NovaSky 团队在博客中透露,Sky-T1-32B-Preview 的训练成本不到 450 美元(IT之家备注:当前约 3306 元人民币),远低于以往同类模型的数百万美元。这一突破得益于合成训练数据的广泛应用,合成数据是由其他模型生成的数据,能够显著降低训练成本。例如,AI 公司 Writer 最近发布的 Palmyra X 004 模型几乎完全依赖合成数据训练,开发成本仅为 70 万美元。

与大多数 AI 模型不同,推理模型具备自我事实核查能力,能够有效避免一些常见错误。尽管推理模型在解决问题时通常比非推理模型需多花费几秒到几分钟,但在物理、科学和数学等领域,其可靠性更高。

NovaSky 团队表示,Sky-T1 的训练数据由阿里巴巴的 QwQ-32B-Preview 推理模型生成,随后经过精心筛选,并利用 OpenAI 的 GPT-4o-mini 对数据进行重构,使其更易于处理。训练这款拥有 320 亿参数的模型仅耗时约 19 小时,使用了 8 台 Nvidia H100 GPU。(参数数量大致对应模型的解决问题能力。)

在性能方面,Sky-T1 在 MATH500(一组“竞赛级”数学挑战)上的表现优于 o1 的早期预览版本,同时在 LiveCodeBench 的编程评估中也表现更佳。然而,在 GPQA-Diamond 测试中(包含物理学、生物学和化学领域的研究生水平问题),Sky-T1 略逊于 o1 预览版。

需要指出的是,OpenAI 已发布的 o1 正式版比预览版更强大,且预计未来几周内将推出性能更优的推理模型 o3。尽管如此,NovaSky 团队表示,Sky-T1 只是他们开发开源推理模型的起点。

团队在博客中写道:“未来,我们将专注于开发更具效率的模型,同时保持强大的推理性能,并探索先进技术以进一步提升模型在测试时的效率和准确性。请继续关注我们在这些激动人心的项目上取得的进展。”

  • 打卡等级:已臻大成
  • 打卡总天数:671
发表于 2025-1-13 10:00 | 显示全部楼层
感谢分享!
回复 支持 反对

使用道具 举报

  • 打卡等级:已臻大成
  • 打卡总天数:547
发表于 2025-1-13 10:34 | 显示全部楼层
感谢楼主分享!
回复 支持 反对

使用道具 举报

  • 打卡等级:功行圆满
  • 打卡总天数:856
发表于 2025-1-13 12:23 | 显示全部楼层
感谢分享Sky-T1资讯
回复 支持 反对

使用道具 举报

  • 打卡等级:功行圆满
  • 打卡总天数:840
发表于 2025-1-13 12:42 | 显示全部楼层
谢谢楼主分享。
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 注册

本版积分规则

文字版| 手机版| 小黑屋| RSS| 举报不良信息| 精睿论坛 ( 鄂ICP备07005250号-1 )

GMT+8, 2026-6-30 02:58 , Processed in 0.294042 second(s), 4 queries , Gzip On, Redis On.

Powered by VC52.CN

快速回复 返回顶部 返回列表