夜间模式 切换到宽版

 找回密码
 注册

QQ登录

只需一步,快速开始

搜索
查看: 111|回复: 6

[科技新闻] DeepSeek又冲上第一!

[复制链接]
  • 打卡等级:功行圆满
  • 打卡总天数:834
发表于 2025-6-17 17:00 | 显示全部楼层 |阅读模式

马上注册,查看更多内容,享用更多功能,让你轻松玩转社区。

您需要 登录 才可以下载或查看,没有账号?注册

×
智东西(公众号:zhidxcom)
编译 | 程茜
编辑 | 心缘
智东西6月17日消息,今日,AI基准测试平台LMArena公布最新WebDev Arena排行榜,新版DeepSeek-R1编程能力冲上第一。
从榜单可以看出,新版DeepSeek-R1与Claude Opus 4、Gemini 2.5 Pro并列第一。
1.webp


自今年2月底,Anthropic发布首款混合推理模型与最佳编码模型Claude 3.7 Sonnet,到5月发布Claude 4,此前,WebDev Arena榜单第一几乎被Anthropic家的Claude系列模型垄断。
此次,新版DeepSeek-R1冲上榜一与Claude Opus 4并列,佐证了其在编程方面的能力提升。
此外,文本领域,新版DeepSeek-R1在开源模型中排名第一,整体排名第6,与Claude Opus 4、GPT-4.1、Gemini-2.5-flash并列。
2.webp


按类别划分,新版DeepSeek-R1在编程方面排名第2,在困难提示方面排名第4,在数学方面排名第5。
3.webp


新DeepSeek-R1于5月28日开源,从DeepSeek当时发布的基准测试结果来看,其整体表现已接近OpenAI-o3与谷歌Gemini-2.5-Pro等模型。
4.webp


完整榜单:https://lmarena.ai/leaderboard
LMArena评论区对新版DeepSeek-R1冲上榜一给予了很高的评价:
DeepSeek-R1在WebDev Arena上的性能现已追平Claude Opus 4,鉴于Claude长期以来作为编程导向型AI的标杆地位,这是一个值得关注的里程碑,这标志着开源AI迎来了关键时刻。
5.webp


6.webp


结语:AI编程模型、产品加速迭代,开启群雄混战

当下,全球AI编程的热度空前高涨,AI加速渗透到AI编程环节中,为开发者带来空前的生产力提升。这一背景下,各路AI编程模型、产品快速迭代。
今日凌晨,月之暗面推出针对软件工程任务的全新开源代码大模型Kimi-Dev-72B,还有此前OpenAI、谷歌、微软、Anthropic、阿里等企业纷纷亮出相应模型、产品。与此同时,新版DeepSeek-R1登顶编程能力榜单,意味着国内外AI编程竞争态势愈发火热。
  • 打卡等级:功行圆满
  • 打卡总天数:834
发表于 2025-6-17 17:22 | 显示全部楼层
R2版估计与GPT-5不相上下,大模型开闭源之争竞争激烈。
回复 支持 反对

使用道具 举报

  • 打卡等级:功行圆满
  • 打卡总天数:834
发表于 2025-6-17 19:43 | 显示全部楼层
回复 支持 反对

使用道具 举报

  • 打卡等级:功行圆满
  • 打卡总天数:834
发表于 2025-6-17 20:22 | 显示全部楼层
跑分有用吗?cursor平台,claude和ds都有,我相信没几个人会用ds。问题不是出在ds公司,而是这些自媒体胡吹,又成了手机的跑分了
回复 支持 反对

使用道具 举报

  • 打卡等级:功行圆满
  • 打卡总天数:834
发表于 2025-6-17 22:08 | 显示全部楼层
主要看编程,数学
回复 支持 反对

使用道具 举报

  • 打卡等级:功行圆满
  • 打卡总天数:834
发表于 2025-6-17 22:17 | 显示全部楼层
明明是第二而已啊
回复 支持 反对

使用道具 举报

  • 打卡等级:已臻大成
  • 打卡总天数:550
发表于 2025-6-18 09:51 | 显示全部楼层
谢谢楼主分享!
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 注册

本版积分规则

文字版| 手机版| 小黑屋| RSS| 举报不良信息| 精睿论坛 ( 鄂ICP备07005250号-1 )

GMT+8, 2026-7-2 13:36 , Processed in 0.241399 second(s), 5 queries , Gzip On, Redis On.

Powered by VC52.CN

快速回复 返回顶部 返回列表