尽管奥尔特曼对 GPT-5.2 充满信心,但各类编码基准测试的结果却呈现出更复杂的态势。截至发稿,GPT-5.2 在 TerminalBench(一项衡量人工智能处理命令行编程任务能力的测试)中暂居榜首,不过 Gemini 3 与 Claude Opus 的智能体得分与其基本持平(数值略低),处于该基准测试的误差允许范围内。另一项测试人工智能修复真实软件漏洞能力的基准测试 SWE-bench,结果也与之相似,GPT-5.2 并未展现出明显优势。不过,智能体化的应用场景很难通过现有基准进行有效评估,且顶尖模型在用户体验上的差异可能十分显著。
这款 Codex 应用还搭载了多项全新功能,这些功能将帮助其达到与各类 Claude 应用相当的水平,部分场景下甚至实现反超。应用支持设置自动化任务,可按预设计划在后台自动运行,执行结果会存入队列,待用户返回后统一查看。用户还能根据自身工作风格,为智能体选择不同交互风格,从务实理性型到共情沟通型均可切换。