精睿.网络安全_杀毒软件推荐|ESET|NOD32|激活|vc52|安软联盟|梦想论坛

月光如水 发表于 2025-6-17 17:00

DeepSeek又冲上第一！

智东西（公众号：zhidxcom）
编译 | 程茜
编辑 | 心缘
智东西6月17日消息，今日，AI基准测试平台LMArena公布最新WebDev Arena排行榜，新版DeepSeek-R1编程能力冲上第一。
从榜单可以看出，新版DeepSeek-R1与Claude Opus 4、Gemini 2.5 Pro并列第一。

自今年2月底，Anthropic发布首款混合推理模型与最佳编码模型Claude 3.7 Sonnet，到5月发布Claude 4，此前，WebDev Arena榜单第一几乎被Anthropic家的Claude系列模型垄断。
此次，新版DeepSeek-R1冲上榜一与Claude Opus 4并列，佐证了其在编程方面的能力提升。
此外，文本领域，新版DeepSeek-R1在开源模型中排名第一，整体排名第6，与Claude Opus 4、GPT-4.1、Gemini-2.5-flash并列。

按类别划分，新版DeepSeek-R1在编程方面排名第2，在困难提示方面排名第4，在数学方面排名第5。

新DeepSeek-R1于5月28日开源，从DeepSeek当时发布的基准测试结果来看，其整体表现已接近OpenAI-o3与谷歌Gemini-2.5-Pro等模型。

完整榜单：https://lmarena.ai/leaderboard
LMArena评论区对新版DeepSeek-R1冲上榜一给予了很高的评价：
DeepSeek-R1在WebDev Arena上的性能现已追平Claude Opus 4，鉴于Claude长期以来作为编程导向型AI的标杆地位，这是一个值得关注的里程碑，这标志着开源AI迎来了关键时刻。

结语：AI编程模型、产品加速迭代，开启群雄混战

当下，全球AI编程的热度空前高涨，AI加速渗透到AI编程环节中，为开发者带来空前的生产力提升。这一背景下，各路AI编程模型、产品快速迭代。
今日凌晨，月之暗面推出针对软件工程任务的全新开源代码大模型Kimi-Dev-72B，还有此前OpenAI、谷歌、微软、Anthropic、阿里等企业纷纷亮出相应模型、产品。与此同时，新版DeepSeek-R1登顶编程能力榜单，意味着国内外AI编程竞争态势愈发火热。

神隐之左手 发表于 2025-6-17 17:22

R2版估计与GPT-5不相上下，大模型开闭源之争竞争激烈。[哈哈]

—じ☆ve人生— 发表于 2025-6-17 19:43

[点赞][点赞][点赞]

颠颠发表于 2025-6-17 20:22

跑分有用吗？cursor平台，claude和ds都有，我相信没几个人会用ds。问题不是出在ds公司，而是这些自媒体胡吹，又成了手机的跑分了

wakeman 发表于 2025-6-17 22:08

主要看编程，数学

kingfirefly 发表于 2025-6-17 22:17

明明是第二而已啊

com2 发表于 2025-6-18 09:51

谢谢楼主分享！

页: [1]

精睿.网络安全's Archiver

DeepSeek又冲上第一！