AI coding 这条 AI 行业今年的主线,在最近这段时间愈发清晰。
除了上周刷屏的编程新王 Claude Opus 4 ,新版 DeepSeek R1 也把更新重点也放在了代码能力,不久前 OpenAI 还以 30 亿美元收购 AI 编程助手 Windsurf,随后就发布了编程智能体 Codex。
这几天,原 Kimi 产品负责人明超平,在和京东打仗的美团,都官宣了 AI 编程相关的产品。
Reddit 上一位拥有 30 多年经验的 C++ 开发者发帖表示,Claude Opus 4 解决了一个困扰他四年的Bug,而且是他用过的第一个能做到这件事的AI。
为什么 Claude 在编程上的表现如此突出?现在提到 Anthropic,大家几乎就默认它是一家「做编程模型的公司」了。但对他们自己来说,这一代模型的真正突破点在哪?未来又会怎么走?
几天前,Claude Opus 4 核心研究员 Sholto Douglas 参与的一场播客对谈,详细回应了这些问题,信息量很大,值得一听。
核心讨论点(省流速看版): Claude Opus 4,有哪些真正值得关注的突破点?
首先是能力升级得非常均衡。
一方面,它的代码执行力显著增强,不仅能理解复杂需求,还能独立查找资料、运行测试、调试错误,真正具备了「从头跑到尾」的能力。另一方面,任务时间跨度也被显著拉长,支持多步骤推理与操作,这意味着它不仅聪明,还很能坚持。
而在架构上,Claude Opus 4 加入了工具调用与长期记忆模块,使得它能够处理更具上下文连续性的任务。从代码助手,迈向了具备「解决方案设计」能力的智能代理。
当然,天花板也不是没有。
团队坦言,完成任务的智力复杂度没有明确的上限——难点在于,如何扩大模型能感知和操作的上下文范围,使其能够使用多种工具、记住更多关键信息。 未来怎么走?
Sholto Douglas 在播客里提到了几个明确的方向:
🚀 强化学习(RL)将持续推动模型在连续任务中的表现;
⏳ 代码代理将能连续运行数小时,人类只需偶尔干预;
👩💻 模型可能成为知识型岗位的「虚拟远程员工」;
🤖 若自动实验室与机器人平台建设跟上,模型可参与真实物理任务,如生物实验或制造。
但有个前提是:智能代理的可靠性必须跟得上。
虽然现在还做不到 100% 成功,但在限定时间内,成功率在稳步上升。预计 2025 年底,编程类智能代理有望实现「几个小时稳定跑」,人类只需偶尔检查。 那除了写代码呢?
编程只是模型能力的「领先指标」。医学、法律等专业领域还在等待数据与工具的完善,一旦准备就绪,同样会迎来快速突破。目前的瓶颈,不在 AI 本身,而在现实世界的验证机制和基础设施。
到 2027–2030 年,模型几乎可以自动化所有白领工作,但如果没有匹配的实验室和现实反馈机制,那就是「能力强、落地难」。 怎么判断模型是不是真的进步了?
团队提到,好的评估系统(Evals)尤为重要。它不仅测技术指标,更强调评估者的专业知识与品味。这也是为什么,模型评测这件事,门槛越来越高。同时,也需要用户不断使用、互动和反馈,形成真正的「共进化」。 实验室 vs 应用公司,谁占上风?
Douglas 认为,实验室通过开放 API 带来机会,但核心优势仍在: