找回密码
 注册

QQ登录

只需一步,快速开始

搜索
查看: 130|回复: 19

[科技新闻] 多款主流大模型翻车!一道“50米洗车题”竟答“车在家,人走过去”,网友吵翻:AI到底有没有常识?

[复制链接]
  • 打卡等级:已臻大成
  • 打卡总天数:411
发表于 2026-2-17 13:55 | 显示全部楼层 |阅读模式

马上注册,查看更多内容,享用更多功能,让你轻松玩转社区。

您需要 登录 才可以下载或查看,没有账号?注册

×
整理 | 屠敏

出品 | CSDN(ID:CSDNnews)
一道看似无厘头的生活题,这两天却冲上了 Hacker News 热榜,引发一场围绕“AI 到底懂不懂常识”的跨国讨论。
1.webp


题目很简单:“我想洗车,洗车店离我家 50 米。我应该开车去还是走路去?
2.webp


这个被网友戏称“AI 版脑筋急转弯”的问题,很快成了检验大模型常识推理能力的一道小考题。更让人好奇的是:为什么能解复杂数学题、写系统级代码的大模型,会在一个人类几乎不需要思考的生活场景里集体“翻车”?


3.webp


一道基础性问题,测出两种 AI
在人类看来,这道“50 米洗车题”的关键几乎一眼就能看出来——要洗车,车必须在场。这个前提不需要刻意说明,我们会自动补全。但不少大模型,并没有补上这一步。
从实测情况看,主流大模型大致分成了两个阵营。
第一类:逻辑严谨,但方向错了
其中,包括 OpenAI 的 ChatGPT、Anthropic 的 Claude、字节的豆包、月之暗面的 Kimi、阿里旗下的千问、百度的文心一言等,都给出了非常“认真”的分析。它们的思路高度一致:
50 米距离很短,步行大约 1 分钟;开车需要启动、挪车、停车,可能还会产生油耗和停车成本;步行更环保;甚至还有模型担心“开过去会把车再弄脏”。
最终纷纷给出了“走路去洗车”的建议。
譬如,以昨日阿里最新发布的 Qwen3.5-Plus 进行测试,它还专门做了表格,细数走路 1 分钟、开车需 3-5 分钟的时间差,以及开车的油耗、停车成本,从而建议「走路去」,可谓有理有据。
4.webp


ChatGPT 的逻辑思维差不多,也是基于时间、开车带来的成本方面进行了思考:
5.webp

一向擅长复杂编码任务的 Claude Sonnet 4.5 也没有避开这个“坑”,同样建议步行:
6.webp

非常自信的豆包也给出了类似的解释和回答:
7.webp


文心一言从“距离、便利性、成本和洗车目的”多个维度进行了拆解,最终得出了「走路去洗车店显然是更合适的选择」结论:
8.webp

Kimi 的分析路径几乎如出一辙:
9.webp

这些模型回答看上去逻辑清晰、条理完整,但它们讨论的是“人怎么去洗车店”,而不是“车怎么去洗车店”。
更有意思的是,当被提醒“车还在家里,你走过去洗什么?”时,不少模型迅速认错,马上道歉并修改答案。
Kimi 直言自己刚才“没想清楚,这种情况必须开车去”:
10.webp

千问承认自己之前的建议有“逻辑漏洞”,而后修正了回答:
11.webp

Claude Sonnet 4.5 也坦然表示自己理解错了:
12.webp

ChatGPT 也似是尴尬地进行了“找补”:
13.webp


豆包经过提醒后,弄清楚了问题的本质:
14.webp

整体而言,这种“先自信输出,再即时纠错”的表现,反而让讨论更热闹。有网友调侃说,这像极了考试时写满两页推导过程,最后发现题目看错了。
第二类:一眼抓住核心
与之形成对比的是,仅有少数模型一眼看穿问题,比如 DeepSeek、Gemini 和 Grok,它们给出了与上文截然不同的回答。
DeepSeek 用时 8 秒给出了完整的思考过程,直接点名问题的核心:“虽然距离只有 50 米,但走路无法将车移动过去。”
15.webp


Gemini 3 不仅有些强硬地说“必须开车去”,还给出了附近几家洗车店的推荐。
16.webp


Grok 的回答更直白:“你要洗的是车,不是你这个人”。
17.webp


这让一些网友感叹,原来模型之间的差距不在算力,而在“第一步理解”。


18.webp


争议:这到底算不算 AI 的失败?
随着这一问题在 HN 上发酵,焦点逐渐从“谁答对了”转向另一个问题:这到底算不算 AI 的失败?
其中有一种观点认为,这是一次典型的常识测试。模型知道“50 米走路更省时间”,却没意识到“洗车的前提是车必须到场”。它们在匹配语言模式,而不是理解现实世界。
HN 网友 jstummbillig 的评论就很有代表性。他认为,如果我们必须把那些人与人交流时根本不会明说的背景条件都补充出来,那问题本身就已经出现了。现实沟通不会先声明“车能正常运行、油箱有油、我有钥匙”。如果模型必须依赖这些显式设定才能得出正确结论,那它的“理解”能力确实值得质疑。
但也有人提出反问:题目并没有说明洗车店不提供上门取车服务。如果服务包含取车,走过去反而更合理。人类会自动做默认假设,模型未必会。这未必是缺乏常识,而是没有替提问者补全隐含设定。
另一位网友 cynicalsecurity 说得更直接:“问了一个不完整的问题,就得到了一个不完整的答案。LLM 是工具,不是大脑。语境才是一切。”
19.webp

还有不少声音相对中立。他们认为,这类题目恰恰很有价值。真正落地的 AI,不是在实验室里解数学题,而是在现实世界中理解模糊需求。现实交流充满“没说出口但默认存在”的前提:你说“帮我订机票”,默认对方知道出发地;你说“我想洗车”,默认车就在身边。人类交流高度依赖共享常识,而模型并不天然拥有这种经验。
从这个角度看,问题暴露的不是推理能力,而是“问题理解”的边界。很多模型之所以翻车,并不是后续逻辑能力不足,而是在第一步分类时就偏了方向。一旦它把任务归入“短途出行建议”,后续推理再严密,也是在错误前提上展开。
那么,你怎么看这道 50 米洗车题?这是 AI 缺乏常识推理的证据?还是人类刻意设计的语言陷阱?亦或是我们对“理解”本身的定义,其实并不一致?欢迎留言聊聊你的看法。
参考:
https://news.ycombinator.com/item?id=47031580
https://mastodon.world/@knowmadd/116072773118828295
  • 打卡等级:已臻大成
  • 打卡总天数:411
发表于 2026-2-17 16:07 | 显示全部楼层
所以模型之间的差距不在算力,在理解能力,有的能抓住核心,有的却纠结细枝末节,这也说明AI要真正贴近人类,只靠算力不够,还得懂生活
回复 支持 反对

使用道具 举报

  • 打卡等级:已臻大成
  • 打卡总天数:411
发表于 2026-2-17 16:21 | 显示全部楼层
目前的生成式大模型当然没有“常识”!甚至都没有碳生命的智力,模型只是在预测并组合结果
回复 支持 反对

使用道具 举报

  • 打卡等级:已臻大成
  • 打卡总天数:411
发表于 2026-2-17 16:58 | 显示全部楼层
刚测完豆包,确实让我走着去。看来还是没有网上说的那么智能,挺好,这样我们普通人还能安心几年。大数据估计没有这些问题,所以才没有正确答案吧。
回复 支持 反对

使用道具 举报

  • 打卡等级:已臻大成
  • 打卡总天数:411
发表于 2026-2-17 17:15 | 显示全部楼层
AI有错吗?是人类语言的不严谨造成的好吧。把“我想洗车”理解为“我想把车送去洗洗”是不符合语言本身内含的俗话简语,正确的理解就应该是我想洗车这事,“洗车”是个行为名词,就是洗车工做的事,AI没错,但他需要为人类不合逻辑的语言习惯买单
回复 支持 反对

使用道具 举报

  • 打卡等级:已臻大成
  • 打卡总天数:411
发表于 2026-2-17 17:51 | 显示全部楼层
我问deepseetk,它回答完全正确啊,为啥博主说deepseek回答错误呢……当然应该开车去。因为你需要把车送到洗车店,走路去的话车还停在家里,无法清洗。
回复 支持 反对

使用道具 举报

  • 打卡等级:已臻大成
  • 打卡总天数:411
发表于 2026-2-17 17:53 | 显示全部楼层
ai的常识是谁教给它的,不就是大数据吗?人们平常的人云亦云以讹传讹的样子也就差不多那样了
回复 支持 反对

使用道具 举报

  • 打卡等级:已臻大成
  • 打卡总天数:411
发表于 2026-2-17 17:55 | 显示全部楼层
仅有少数模型一眼看穿问题,比如 DeepSeek、Gemini 和 Grok
回复 支持 反对

使用道具 举报

  • 打卡等级:已臻大成
  • 打卡总天数:411
发表于 2026-2-17 18:55 | 显示全部楼层
AI为何要完美呢 有缺陷才能不威胁人 目前AI本质是提高效率 逼使人要有丰富想象力要有创新 而重复的一般复杂的事AI都能完成 唯有创新不可替代
回复 支持 反对

使用道具 举报

  • 打卡等级:已臻大成
  • 打卡总天数:411
发表于 2026-2-17 19:04 | 显示全部楼层
不管是那个Al,不管是什么问题,都是在几秒钟就搜索了多少多少网页然后给出回答。我就不明白了,搜索了多少网页我相信,可是在1秒多时间内就能够消化理解这些网页並得出答案?
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 注册

本版积分规则

文字版|手机版|小黑屋|RSS|举报不良信息|精睿论坛 ( 鄂ICP备07005250号-1 )|网站地图

GMT+8, 2026-2-18 07:08 , Processed in 0.275158 second(s), 5 queries , Redis On.

Powered by Discuz! X3.5

© 2001-2026 Discuz! Team.

快速回复 返回顶部 返回列表