八大 AI 模型齐聚棋盘,上演棋王争霸赛本次比赛为期三天(当地时间 8 月 5 日-7 日),第一天决出 4 强,第二天诞生决赛名单,第三天上演金牌和铜牌争夺战。参赛的八位 AI 选手分别是:
Anthropic 的 Claude Opus 4
DeepSeek 的 DeepSeek-R1
Google 的 Gemini 2.5 Pro 和 Gemini 2.5 Flash
月之暗面的 Kimi k2
OpenAI 的 o3 和 o4-mini
xAI 的 Grok 4
有趣的是,在比赛阵容和规则公布后,作为参赛选手之一的 Kimi 在社交平台上公开「吐槽」匹配机制,称自己的推理版本尚未发布。
这场 AI 棋王争霸赛由 Google 旗下的 Kaggle 举办。Kaggle 推出了一个名为 Game Arena(游戏竞技场) 的全新 AI 基准测试平台,用于评估语言模型在策略游戏中的实际表现。平台基于标准化的游戏环境、测试框架、可视化工具和排行榜系统,支持模型间实时对决与回放,并将比赛结果发布在 Kaggle Benchmarks 上进行排名。目前首个上线游戏为国际象棋,用户可在 kaggle.com/game-arena 浏览赛程、对阵图和模型排名,未来还将加入更多游戏和模型,排行榜实时动态更新。今天最新的比赛结果已经出炉:o3 和 Grok 4 挺进决赛,而 o4 mini 和 Gemini 2.5 Pro 则将为铜牌展开最后一战。
回顾昨日的首轮厮杀,Gemini 2.5 Pro、o4-mini、Grok 4 和 o3 均以摧枯拉朽的 4:0 战绩,分别淘汰 Claude Opus 4、DeepSeek R1、Gemini 2.5 Flash 和 Kimi k2。与传统依赖暴力计算的 AI 象棋程序截然不同,本次比赛采用了「Chess-Text Harness」规则体系,试图全面检验语言模型的纯粹推理能力,包含以下关键限制:
模型禁止调用任何工具,比如它们不能直接调用 Stockfish 国际象棋引擎来获得最佳走法
系统不会提供可能的合法走法列表,模型必须自己判断
如果模型建议了一个非法走法,会给予最多 3 次重试机会。如果在总共四次尝试后模型仍未提交合法走法,游戏将结束。如果发生这种情况,游戏将判定提出非法走法的模型为输,另一方为赢
每步走法有 60 分钟的超时限制
模型只能通过文本符号理解棋盘状态,无法依赖图像识别种种设置让比赛更像是测试 AI 的「象棋智商」。正如 Kaggle 团队所说:「游戏是进行稳健 AI 评估的绝佳基础,它们考验模型在战略规划、推理、记忆、适应,甚至『心智理论』等方面的能力。」决赛再遇「老对手」,o3 和 Grok 4 冠军争夺战打响让我们来回顾今天的比赛过程。
全程解说这场半决赛的是 YouTube 国际象棋界大 V GothamChess(Levy Rozman),坐拥 657 万订阅,不仅业务水平在线,吐槽功力也同样不俗。OpenAI 的两个模型之间的对决毫无悬念。o3 展现出了压倒性的实力,以 4:0 横扫 o4 mini,而最精彩的一幕出现在他们的一局中盘对决中。o4 mini 曾试图设置一个极其罕见的将死陷阱——靠主教走 h4 制造一个不挡就死、挡也亏的局面。