DeepSeek、Kimi 首轮淘汰，马斯克 Grok 4 杀进决赛，首届全球 AI 对抗赛连爆冷门

lovejuan0104 · 发表于 2025-8-7 11:59

马上注册，查看更多内容，享用更多功能，让你轻松玩转社区。

您需要登录才可以下载或查看，没有账号？注册

×

马斯克和奥特曼的恩怨，可能要在 64 格的国际象棋棋盘上解决了。就在 Kaggle 游戏竞技场刚刚举行的 AI 国际象棋锦标赛半决赛中，o3 以 4:0 横扫 o4 mini，而 Grok 4 与 Gemini 2.5 Pro 激战五局，最终通过加时赛惊险取胜。

此次比赛聚集了八款全球主流语言模型，其中就包括月之暗面的 Kimi K2 和 DeepSeek R1 等热门选手，但遗憾的是，两者均在首轮就被淘汰，未能进入四强。面对 Grok 4 的强势发挥，实时追更赛况的马斯克也是「装」起来了：「xAI 在国际象棋上几乎没花什么心思。」

八大 AI 模型齐聚棋盘，上演棋王争霸赛本次比赛为期三天（当地时间 8 月 5 日-7 日），第一天决出 4 强，第二天诞生决赛名单，第三天上演金牌和铜牌争夺战。参赛的八位 AI 选手分别是：
Anthropic 的 Claude Opus 4
DeepSeek 的 DeepSeek-R1
Google 的 Gemini 2.5 Pro 和 Gemini 2.5 Flash
月之暗面的 Kimi k2
OpenAI 的 o3 和 o4-mini
xAI 的 Grok 4

有趣的是，在比赛阵容和规则公布后，作为参赛选手之一的 Kimi 在社交平台上公开「吐槽」匹配机制，称自己的推理版本尚未发布。

这场 AI 棋王争霸赛由 Google 旗下的 Kaggle 举办。Kaggle 推出了一个名为 Game Arena（游戏竞技场）的全新 AI 基准测试平台，用于评估语言模型在策略游戏中的实际表现。平台基于标准化的游戏环境、测试框架、可视化工具和排行榜系统，支持模型间实时对决与回放，并将比赛结果发布在 Kaggle Benchmarks 上进行排名。目前首个上线游戏为国际象棋，用户可在 kaggle.com/game-arena 浏览赛程、对阵图和模型排名，未来还将加入更多游戏和模型，排行榜实时动态更新。今天最新的比赛结果已经出炉：o3 和 Grok 4 挺进决赛，而 o4 mini 和 Gemini 2.5 Pro 则将为铜牌展开最后一战。

回顾昨日的首轮厮杀，Gemini 2.5 Pro、o4-mini、Grok 4 和 o3 均以摧枯拉朽的 4:0 战绩，分别淘汰 Claude Opus 4、DeepSeek R1、Gemini 2.5 Flash 和 Kimi k2。与传统依赖暴力计算的 AI 象棋程序截然不同，本次比赛采用了「Chess-Text Harness」规则体系，试图全面检验语言模型的纯粹推理能力，包含以下关键限制：
模型禁止调用任何工具，比如它们不能直接调用 Stockfish 国际象棋引擎来获得最佳走法
系统不会提供可能的合法走法列表，模型必须自己判断
如果模型建议了一个非法走法，会给予最多 3 次重试机会。如果在总共四次尝试后模型仍未提交合法走法，游戏将结束。如果发生这种情况，游戏将判定提出非法走法的模型为输，另一方为赢
每步走法有 60 分钟的超时限制
模型只能通过文本符号理解棋盘状态，无法依赖图像识别种种设置让比赛更像是测试 AI 的「象棋智商」。正如 Kaggle 团队所说：「游戏是进行稳健 AI 评估的绝佳基础，它们考验模型在战略规划、推理、记忆、适应，甚至『心智理论』等方面的能力。」决赛再遇「老对手」，o3 和 Grok 4 冠军争夺战打响让我们来回顾今天的比赛过程。
全程解说这场半决赛的是 YouTube 国际象棋界大 V GothamChess（Levy Rozman），坐拥 657 万订阅，不仅业务水平在线，吐槽功力也同样不俗。OpenAI 的两个模型之间的对决毫无悬念。o3 展现出了压倒性的实力，以 4:0 横扫 o4 mini，而最精彩的一幕出现在他们的一局中盘对决中。o4 mini 曾试图设置一个极其罕见的将死陷阱——靠主教走 h4 制造一个不挡就死、挡也亏的局面。

Levy Rozman 表示：「那可能是史上最罕见的将死方式！」然而 o3 不仅识破了陷阱，还冷静地只用一步棋就化解了威胁，随后通过精准的战术组合，用车渗透后排，最终以主教 b5 将死结束比赛。当然，真正的名场面出现在另一组对决——Grok 4 对阵 Gemini 2.5 Pro。第一局，又是熟悉的西西里防御开局，但 Grok 4 很快就开始犯下一系列匪夷所思的错误，没下几步，就把主教走到 f7，直接白给。（注释：西西里防御是国际象棋中黑方应对白方 1.e4 的经典开局，以 1…c5 非对称反击著称，攻防兼备、战术丰富，是最具侵略性的防御之一。）

随后的局面更是一边倒，Grok 在短短几步内就丢掉了皇后，Gemini 轻松获胜。第二局 Grok 的开局表现依然糟糕。它再次在开局阶段就白送了一个骑士，但好在中后盘，扛住压力的 Grok 打出极佳战术组合，赢下了这盘棋。Rozman 打趣道：「Grok 昨晚肯定在以 4:0 赢了 Gemini Flash 之后出去狂欢了，由于喝得酩酊大醉，现在才宿醉醒来。」

第三局开始，Grok 精准地走出了前 11 步电脑最佳走法，展现出了 Stockfish 般的水准。虽然中盘又出现了一次失误（牺牲骑士），但关键时刻，它找到了一个绝妙的战术组合：通过推进 e5 兵，同时威胁对方的皇后和骑士，迫使 Gemini 陷入绝境。「这太疯狂了！」Rozman 解说道，「无论黑方用皇后还是骑士吃掉白方在 e5 的兵，白方都能重新吃回并形成一系列走法，使黑方至少损失一个骑士。」最终 Grok 通过主教 b5 将军，吃掉了 Gemini 的皇后，再次扳回一城。而 Gemini 赢下第四盘棋，成功将比赛拖入决胜局。

翘首以待，终于我们迎来了决赛局。决胜局有个需要注意的特殊规则：如果和棋，执黑的 Grok 获胜，在国际象棋比赛中被称为「Armageddon」（世界末日）赛制。因为执白方天生有先手优势，为了平衡这种优势，在决胜局中会给黑棋一些补偿，比如白棋必须赢棋才能获胜、黑棋只需要和棋就算获胜，有时还会给白棋更多思考时间（比如白棋 6 分钟，黑棋 5 分钟）。Gemini 开局气势如虹，皇后深入腹地制造多重威胁，一度占据明显优势。然而，在关键时刻，Gemini 的皇后走到了一个完全不设防的位置。

不出意外，Grok 毫不客气地吃掉了对方的皇后，但戏剧性的一幕出现了，Grok 后续在占据优势（多一个皇后）的情况下，选择了重复移动棋子到相同的位置，导致了和棋。（注释：重复局面是国际象棋中的一个规则，当完全相同的棋盘位置（包括所有棋子的位置、轮到谁走棋、易位权利等）出现三次时，任何一方都可以申请和棋。这个规则的目的是防止比赛无限进行下去。）最后根据规则，和棋判定执黑的 Grok 依旧获胜。「Grok 在我们见过的最精彩的 AI 对决之一中淘汰了 Gemini Pro！」Rozman 总结道。随着半决赛尘埃落定，明天当地时间（8 月 7 日）的决赛名单确定：OpenAI 的 o3 将迎战 xAI 的 Grok 4，一场映射着奥特曼与马斯克恩怨情仇的巅峰对决，即将在棋盘上展开。而 o4 mini 与 Gemini 2.5 Pro 的铜牌争夺战同样值得期待。

欢迎加入 APPSO AI 社群，一起畅聊 AI 产品，获取#AI有用功，解锁更多 AI 新知👇

merlynz · 发表于 2025-8-7 14:21

支持，非常给力！

账号		自动登录	找回密码
密码			注册

[科技新闻] DeepSeek、Kimi 首轮淘汰，马斯克 Grok 4 杀进决赛，首届全球 AI 对抗赛连爆冷门

马上注册，查看更多内容，享用更多功能，让你轻松玩转社区。

浏览过的版块