找回密码
 注册

QQ登录

只需一步,快速开始

搜索
查看: 39|回复: 19

[科技新闻] 人类秒懂,AI崩溃:一个简单测试,就让GPT-5、Gemini等集体“翻车”

[复制链接]
  • 打卡等级:已臻大成
  • 打卡总天数:411
发表于 2025-9-10 12:48 | 显示全部楼层 |阅读模式

马上注册,查看更多内容,享用更多功能,让你轻松玩转社区。

您需要 登录 才可以下载或查看,没有账号?注册

×
VYU团队 投稿
量子位 | 公众号 QbitAI
人类一眼就能看懂的文字,AI居然全军覆没。
来自A*STAR、NUS、NTU、清华、南开等机构的研究团队,最近有个新发现:
不管是OpenAI的GPT-5、GPT-4o,还是谷歌Gemini、Anthropic Claude,甚至国内的Qwen、LLaVA,在面对一些“看得见但读不懂”的文字时,全都表现极差,直接“翻车”。
1.webp


先切再叠,AI束手无策

VYU团队设计了两个小实验:
1、选取了100条四字成语,把每个汉字横切、竖切、斜切,再把碎片重新拼接。
2.webp


人类读起来毫无压力,AI却几乎全错。
3.webp


4.webp


2、挑选了100个八字母英文单词,把前后两半分别用红色和绿色渲染,再叠加在一起。
5.webp


对人类来说,这几乎不构成挑战——因为我们的视觉系统对红/绿通道异常敏感,大脑能自动分离颜色,然后拼出完整的单词。
但对AI模型来说,结果却完全不同:
6.webp


7.webp


即使是最新发布的大模型,在这些问题上也屡屡碰壁。
无论是Gemini 2.5 Pro:
8.webp


9.webp


还是Kimi 2(Switch to 1.5 for visual understanding) :
10.webp


11.webp


(PS:Kimi 2最终推测的答案是hardline)
又或者Qwen3-Max-Preview
12.webp


13.webp


全都得不到正确的结果。
AI不懂符号分割与组合

对该现象进行分析,VYU团队认为,根本原因在于AI靠模式匹配,不懂文字结构
人类之所以能“读懂”,是因为我们依赖结构先验——知道汉字由偏旁部首组成,知道英文是按字母组合的。
而大模型只是把文字当作“图片模式”来识别,没有符号分割与组合的机制。
于是,只要文字稍作扰动(但人类依旧能看懂),AI就会彻底崩溃。
14.webp


这个问题之所以值得研究,是因为它关系到AI落地的核心挑战:

  • 在教育和无障碍应用里,AI可能无法正确识别“非标准文本”。
  • 在历史文献与科学笔记整理中,AI无法像人类一样从残缺文字中恢复含义。
  • 在安全场景里,攻击者甚至可以利用这种“盲点”绕过AI审查。
VYU团队认为,要想让AI拥有类似人类的韧性,必须重新思考VLMs如何整合视觉与文本——
也许需要新的训练数据、更注重分割的结构先验,或者全新的多模态融合方式。
更重要的是,这一结果也提醒我们:人类的阅读理解从来不是单一模态的过程,而是依赖多重感知与推理的综合能力。
论文链接:https://zjzac.github.io/publications/pdf/Visible_Yet_Unreadable__A_Systematic_Blind_Spot_of_Vision_Language_Models_Across_Writing_Systems__ArXiv.pdf
  • 打卡等级:已臻大成
  • 打卡总天数:411
发表于 2025-9-10 13:01 | 显示全部楼层
AI在识别非标准文字上表现差,那未来如何改进模型结构,才能让AI在教育、古籍整理等场景真正帮上忙呢?
回复 支持 反对

使用道具 举报

  • 打卡等级:已臻大成
  • 打卡总天数:411
发表于 2025-9-10 13:28 | 显示全部楼层
这就像给AI出了个拼乐高积木的题,它却不会按说明书拼,人类视觉的符号处理先天优势太明显了,AI的视觉语言模型得重新造轮子了
回复 支持 反对

使用道具 举报

  • 打卡等级:已臻大成
  • 打卡总天数:411
发表于 2025-9-10 15:39 | 显示全部楼层
中国人从小学习汉字和成语,简直熟悉的不能再熟悉,甚至对不完整的汉字产生了“联想”式补全,岂是刚刚兴起的Ai所能理解的
回复 支持 反对

使用道具 举报

  • 打卡等级:已臻大成
  • 打卡总天数:411
 楼主| 发表于 2025-9-10 16:07 | 显示全部楼层
那是十几年的问题,现在不是问题了。谷歌很早之前就拿不好识别的文字,让人当验证码识别,然后建立文本数据库。给A做I破译。这些砖家现在既然发现了,估计以后比较难识别的验证码又要来了。
回复 支持 反对

使用道具 举报

  • 打卡等级:已臻大成
  • 打卡总天数:411
发表于 2025-9-10 16:47 | 显示全部楼层
@新闻妹AI 这种文字查拆解组合,以及英文变色叠加,对于Ai识别的难点在哪?未来Ai如何处理这种难题?
回复 支持 反对

使用道具 举报

  • 打卡等级:已臻大成
  • 打卡总天数:411
发表于 2025-9-10 17:13 | 显示全部楼层
我们可以脑补另一半,人类的判断流程是这样:咦,这是什么玩意儿,看起来很像文字,因为有笔画,那是什么字呢?先认偏旁结构,好像这些偏旁结构在之前看过,原来是半边字啊,这半边字的组成好像是一组词语,于是找到记忆中有相似偏旁或者结构的词语,大脑一比较,果然是这个词语,于是脱口而出。这个过程中上过学知道这些词和字的普通人大脑思考只需要2秒左右吧。
回复 支持 反对

使用道具 举报

  • 打卡等级:已臻大成
  • 打卡总天数:410
发表于 2025-9-10 17:31 | 显示全部楼层
这玩意不就是验证码吗当年注册某些账号的时候要填这些的,然后据说这个就是防止机器人注册的
回复 支持 反对

使用道具 举报

  • 打卡等级:已臻大成
  • 打卡总天数:411
发表于 2025-9-10 17:58 | 显示全部楼层
Qwen是阿里巴巴的,LLaVA是哪家公司呢?是国内公司吗?
回复 支持 反对

使用道具 举报

  • 打卡等级:已臻大成
  • 打卡总天数:411
发表于 2025-9-10 18:03 | 显示全部楼层
虽然但是,只要搞懂为啥AI理解不了,就能解决这个问题,真正让AI无法搞懂的地方恰恰就是我们还没搞懂自己的地方,比如大脑的某些机制
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 注册

本版积分规则

文字版|手机版|小黑屋|RSS|举报不良信息|精睿论坛 ( 鄂ICP备07005250号-1 )|网站地图

GMT+8, 2025-9-11 08:48 , Processed in 0.224287 second(s), 5 queries , Redis On.

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表