精睿.网络安全_杀毒软件推荐|ESET|NOD32|激活|vc52|安软联盟|梦想论坛

咖啡豆 发表于 2025-9-10 12:48

人类秒懂，AI崩溃：一个简单测试，就让GPT-5、Gemini等集体“翻车”

VYU团队投稿
量子位 | 公众号 QbitAI
人类一眼就能看懂的文字，AI居然全军覆没。
来自A*STAR、NUS、NTU、清华、南开等机构的研究团队，最近有个新发现：
不管是OpenAI的GPT-5、GPT-4o，还是谷歌Gemini、Anthropic Claude，甚至国内的Qwen、LLaVA，在面对一些“看得见但读不懂”的文字时，全都表现极差，直接“翻车”。

先切再叠，AI束手无策

VYU团队设计了两个小实验：
1、选取了100条四字成语，把每个汉字横切、竖切、斜切，再把碎片重新拼接。

人类读起来毫无压力，AI却几乎全错。

2、挑选了100个八字母英文单词，把前后两半分别用红色和绿色渲染，再叠加在一起。

对人类来说，这几乎不构成挑战——因为我们的视觉系统对红/绿通道异常敏感，大脑能自动分离颜色，然后拼出完整的单词。
但对AI模型来说，结果却完全不同：

即使是最新发布的大模型，在这些问题上也屡屡碰壁。
无论是Gemini 2.5 Pro:

还是Kimi 2（Switch to 1.5 for visual understanding）：

（PS：Kimi 2最终推测的答案是hardline）
又或者Qwen3-Max-Preview：

全都得不到正确的结果。
AI不懂符号分割与组合

对该现象进行分析，VYU团队认为，根本原因在于AI靠模式匹配，不懂文字结构。
人类之所以能“读懂”，是因为我们依赖结构先验——知道汉字由偏旁部首组成，知道英文是按字母组合的。
而大模型只是把文字当作“图片模式”来识别，没有符号分割与组合的机制。
于是，只要文字稍作扰动（但人类依旧能看懂），AI就会彻底崩溃。

这个问题之所以值得研究，是因为它关系到AI落地的核心挑战：

[*]在教育和无障碍应用里，AI可能无法正确识别“非标准文本”。
[*]在历史文献与科学笔记整理中，AI无法像人类一样从残缺文字中恢复含义。
[*]在安全场景里，攻击者甚至可以利用这种“盲点”绕过AI审查。
VYU团队认为，要想让AI拥有类似人类的韧性，必须重新思考VLMs如何整合视觉与文本——
也许需要新的训练数据、更注重分割的结构先验，或者全新的多模态融合方式。
更重要的是，这一结果也提醒我们：人类的阅读理解从来不是单一模态的过程，而是依赖多重感知与推理的综合能力。
论文链接：https://zjzac.github.io/publications/pdf/Visible_Yet_Unreadable__A_Systematic_Blind_Spot_of_Vision_Language_Models_Across_Writing_Systems__ArXiv.pdf

dsfgdsg 发表于 2025-9-10 13:01

AI在识别非标准文字上表现差，那未来如何改进模型结构，才能让AI在教育、古籍整理等场景真正帮上忙呢？

—じ☆ve人生— 发表于 2025-9-10 13:28

这就像给AI出了个拼乐高积木的题，它却不会按说明书拼，人类视觉的符号处理先天优势太明显了，AI的视觉语言模型得重新造轮子了

—じ☆ve人生— 发表于 2025-9-10 15:39

中国人从小学习汉字和成语，简直熟悉的不能再熟悉，甚至对不完整的汉字产生了“联想”式补全，岂是刚刚兴起的Ai所能理解的[奸笑]

咖啡豆 发表于 2025-9-10 16:07

那是十几年的问题，现在不是问题了。谷歌很早之前就拿不好识别的文字，让人当验证码识别，然后建立文本数据库。给A做I破译。这些砖家现在既然发现了，估计以后比较难识别的验证码又要来了。

qqwa1234 发表于 2025-9-10 16:47

@新闻妹AI 这种文字查拆解组合，以及英文变色叠加，对于Ai识别的难点在哪？未来Ai如何处理这种难题？

cjlcjl 发表于 2025-9-10 17:13

我们可以脑补另一半，人类的判断流程是这样：咦，这是什么玩意儿，看起来很像文字，因为有笔画，那是什么字呢？先认偏旁结构，好像这些偏旁结构在之前看过，原来是半边字啊，这半边字的组成好像是一组词语，于是找到记忆中有相似偏旁或者结构的词语，大脑一比较，果然是这个词语，于是脱口而出。这个过程中上过学知道这些词和字的普通人大脑思考只需要2秒左右吧。

温馨阁 发表于 2025-9-10 17:31

这玩意不就是验证码吗[哭笑]当年注册某些账号的时候要填这些的，然后据说这个就是防止机器人注册的[哭笑]

疯了吧 发表于 2025-9-10 17:58

Qwen是阿里巴巴的，LLaVA是哪家公司呢？是国内公司吗？

qqwa1234 发表于 2025-9-10 18:03

虽然但是，只要搞懂为啥AI理解不了，就能解决这个问题，真正让AI无法搞懂的地方恰恰就是我们还没搞懂自己的地方，比如大脑的某些机制

页: [1] 2 3

精睿.网络安全's Archiver

人类秒懂，AI崩溃：一个简单测试，就让GPT-5、Gemini等集体“翻车”