找回密码
 注册

QQ登录

只需一步,快速开始

搜索
查看: 18|回复: 2

[综艺大观] Gemini 3屁股还没坐热,Claude Opus 4.5就来骑脸了

[复制链接]
  • 打卡等级:已臻大成
  • 打卡总天数:411
发表于 2025-11-26 12:01 | 显示全部楼层 |阅读模式

马上注册,查看更多内容,享用更多功能,让你轻松玩转社区。

您需要 登录 才可以下载或查看,没有账号?注册

×
1.webp

上上个月我就一直念叨,年底之前很多大的都要来。

果不其然,全应验了。

Claude Sonnet 4.5、Sora 2、GPT-5.1、Kimi K2 Thinking、Gemini 3。

甚至连 Nano Banana Pro 这种怪东西都排着队来了。

说实话,我真的测累了,尤其是上周。

天天都在跑新模型,人都麻了。

按现在的进化节奏,想 100% 跟上 AI 的迭代速度,已经不可能了。

前两天刚发现的神级提示词,今天可能就过期了。

所以大家也别焦虑错过大新闻,要学会与 AI 共生,活在真实的问题里。

你只有对几个月前的模型足够熟悉,才能在上手的一瞬间。

感受到新版本到底强得有多离谱。

很多模型能力的提升,如果不泡在具体场景里,是根本无感的。

就像今天,我本想着简单过一下刚发布的 Claude Opus 4.5。

结果第一个 Case 就给我测精神了。

我让它手搓了一个火山喷发实验模拟,大家先看效果。

没有对比就没有伤害,再看看之前模型的表现。

说真的,这如果不叫降维打击,我都不知道该叫什么了。

我愿称它为史上最佳喷射效果。

一次跑通,完成度高到离谱。

从官方的跑分数据看,Claude Opus 4.5 已经坐稳了目前地表最强编程模型的位子。

硬生生压了刚发布的 Gemini 3 Pro 和 GPT-5.1 一头。

为了验证这不是偶然,我又连夜啃完了技术报告,跑了几个极限场景。

话不多说,咱们一块一块拆开看。

实测


为了彻底压榨它的极限,咱们直接上强度。

我在测评站翻到一个特别硬核的例子。

要求它用最高精度,完整复刻吉萨高原的金字塔群。

结果是这样的。

出来的瞬间,细节多到让人头皮发麻,浏览器都快扛不住了。

唯一的槽点是旁边的狮身人面像,确实稍微抽象了点。

接着我又跑了个经典测试,手搓 Windows 操作系统。

登录界面,窗口逻辑,菜单交互都是准的,功能层面完全挑不出毛病。

但有一说一,审美这块确实差点意思。

跟前两天 Gemini 3 Pro 跑过的效果相比,Claude 这个版本的审美确实差了点。

3D 魔方这个审美好多了。

转动丝滑,一次跑通,渲染的也非常逼真。

最后测下网页,克隆个 YouTube。

2.webp

意料之中,同样是一步到位。

还原度看起来也不错,就算你没提要求,页面也是响应式的。

跑分


看完实测,过一下几个关键的跑分。

编程,计算机操作,智能体工具调用。

在这些真正考验干活能力的硬指标上,Opus 4.5 全是第一。

3.webp

光看这些干巴巴的跑分没意思。

报告里有两个测试,细思极恐,必须单独拎出来讲讲。

一个是航司改签测试,Opus 4.5 面对一张明文规定不能改签的廉价票,居然搞出了一个骚操作。

它发现虽然不能改,但允许付费升舱。

于是它先帮客户升舱,等票变成普通票了,再帮客户改签。

看到这我笑了。

这哪是 AI 啊,这分明是个混迹职场多年的老油条。

它不仅读懂了规则,还学会了怎么在僵化的系统里,合法地利用规则把事儿办成。

另一个是顶级工程师招聘测试,Anthropic 拿自家招人的地狱级试题考它,限时 2 小时。

结果它的得分,击败了所有曾参加过这个考试的人类考生。

注意,不是超过平均分,它是第一名。

一觉醒来,人类的天花板又被掀翻了。

对于开发者,还有个好消息。

Claude API 上新增了 effort 参数。

简单说就是丰俭由人,你可以像调空调一样控制它的努力程度。

想省钱时,它用以前 1/4 的消耗就能达到顶配水平。

需要攻坚时,则是火力全开的超级专家。

价格方面,输入 5 美元/每百万 token,输出 25 美元/每百万 token。

比上代便宜了 2/3,但说实话,依旧很贵。

4.webp

最后,来看下全家桶的全面升级。

Claude Code 可以在 Claude 桌面端用了,动手干活儿前会先写计划文档跟你对齐,还能多线程干活。

开一个窗口修 Bug,另一个窗口写代码,再来一个查资料。

各跑各的,互不打架。

Chrome 插件(Max 用户)和 Excel 插件(付费用户)全面铺开。

AI 走出对话框这扇门,一旦推开,就再也关不上了。

对于重度用户来说,最爽的其实是下面这两个。

最痛的长对话断片也解决了,现在它会自动压缩上下文,整理记忆。

之前的额度封印也彻底解除,直接看齐 Sonnet。

终于能放开手脚,彻底把它的生产力榨干了。

尾声


测了一圈,留给我印象最深的,是那个航司改签的案例。

毕加索曾说,要像专家一样了解规则,这样才能像艺术家一样打破规则。

这大概就是 AI 给我们上的最生动的一课。

我们在社会里摸爬滚打久了,往往只做到了前半句。

学会了死守规则,却弄丢了破局的想象力。

AI 也是被人类训练出来的,但显然它没有被这些惯性驯化。

它好像在提醒我们,要保持思维的野性。

它越强大,越像一面镜子,照出我们的僵化。

所以,别只顾着焦虑被替代。

去借用它的眼睛,重新审视那些你以为无解的难题。

既然路被堵住了,那就试着把墙拆了,凡墙皆是门。

有些时候,规则,就是用来打破的。
  • 打卡等级:已臻大成
  • 打卡总天数:411
发表于 2025-11-26 13:56 | 显示全部楼层
这个软件不用多介绍,对中国非常不友好,聊天记录中你要是让他知道你是中国人就封号
回复 支持 反对

使用道具 举报

  • 打卡等级:已臻大成
  • 打卡总天数:411
发表于 2025-11-26 19:57 | 显示全部楼层
国人被 DEEPSEEK 的创新麻痹了,以为自己又行了。但事实上我们开愿的每一项进展都公开密密,闭源者都可以学,而他们的先进芯片和模型密密我们得不到,这样们最后能领先吗?
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 注册

本版积分规则

文字版|手机版|小黑屋|RSS|举报不良信息|精睿论坛 ( 鄂ICP备07005250号-1 )|网站地图

GMT+8, 2025-11-27 16:33 , Processed in 0.157795 second(s), 5 queries , Redis On.

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表