找回密码
 注册

QQ登录

只需一步,快速开始

搜索
查看: 63|回复: 11

[数码资讯] 新研究发现 AI 无法读懂模拟时钟,还不能告诉你某天是周几

[复制链接]
  • 打卡等级:已臻大成
  • 打卡总天数:448
发表于 2025-5-18 10:07 | 显示全部楼层 |阅读模式

马上注册,查看更多内容,享用更多功能,让你轻松玩转社区。

您需要 登录 才可以下载或查看,没有账号?注册

×
根据外媒 LiveScience 今日报道,有些人类能轻松完成的任务,AI 却无法胜任。譬如,AI 能编程、画出逼真的图像、生成接近人类语气的文本,甚至在部分考试中取得不错成绩,但在日常生活中最基础的“看钟”“算日子”这类事情上,却频繁出错 —— 要么读不准指针位置,要么算不出星期几。

研究人员在 2025 年“国际学习表征会议”( ICLR )上介绍了这项发现,有关的论文已经在 arXiv 上发布,目前尚未通过同行评审。

爱丁堡大学研究员、论文作者 Rohit Saxena 表示:“人类从小就能掌握时间与日历概念,而 AI 在这方面的不足,是一个值得警惕的信号。”他指出,若要将 AI 应用于现实生活中对时间敏感的场景,比如排班、自动化流程或辅助技术,这类基本能力的缺陷必须解决。



研究团队向多个具备图文处理能力大语言模型的输入了一组专门制作的时钟与日历图像,受测模型包括 Meta 的 Llama 3.2-Vision、Anthropic 的 Claude-3.5 Sonnet、谷歌的 Gemini 2.0 和 OpenAI 的 GPT-4o。测试结果显示,这些模型在判断时钟时间或推算日期星期的任务上,正确率都未超过一半。

Saxena 表示:“过去的 AI 训练依赖大量带标签的例子,而读时钟需要的是空间推理。模型不仅要识别指针是否重叠,还要理解角度、分辨各种风格的表盘,比如罗马数字或艺术化设计。这远比单纯识别‘这是一个时钟’更复杂。”

日历问题同样难住了 AI。例如在“每年第 153 天是星期几”这类问题上,错误率依然居高不下。研究显示,AI 读时钟的正确率仅为 38.7%,判断日历的准确率更低,只有 26.3%。

Saxena 解释道:“对传统计算机来说,算术轻而易举,但对大模型而言则不然。AI 并不执行算法,而是依靠从训练数据中学到的模式来预测答案。”他指出,虽然 AI 有时能答对问题,但其推理过程缺乏一致性,也不基于固定规则,这正是研究所揭示的差距。

研究还揭示了另一个问题,即当 AI 的训练样本缺乏某类现象时,比如闰年或复杂的日历规则,其表现往往更差。Saxena 表示:“即使模型了解‘闰年’这一概念,也不代表它们能将这个知识正确应用到具体的视觉判断中。”

IT之家从报道中获悉,研究强调了两个方面的改进方向:一是训练数据应包含更多具有代表性的示例;二是应重新审视 AI 如何整合逻辑推理与空间感知,尤其是在处理不常遇到的任务时。
  • 打卡等级:自成一派
  • 打卡总天数:267
发表于 2025-5-18 10:16 | 显示全部楼层
感谢分享!
回复 支持 反对

使用道具 举报

  • 打卡等级:已臻大成
  • 打卡总天数:450
发表于 2025-5-18 10:56 | 显示全部楼层
看看新闻
回复 支持 反对

使用道具 举报

  • 打卡等级:自成一派
  • 打卡总天数:126
发表于 2025-5-18 11:23 | 显示全部楼层
感谢楼主分享~~~
回复 支持 反对

使用道具 举报

  • 打卡等级:自成一派
  • 打卡总天数:127
发表于 2025-5-18 16:13 | 显示全部楼层
回复 支持 反对

使用道具 举报

  • 打卡等级:已臻大成
  • 打卡总天数:443
发表于 2025-5-18 16:14 | 显示全部楼层
谢谢分享。
回复 支持 反对

使用道具 举报

  • 打卡等级:自成一派
  • 打卡总天数:141
发表于 2025-5-18 16:57 | 显示全部楼层
已阅
回复 支持 反对

使用道具 举报

  • 打卡等级:自成一派
  • 打卡总天数:179
发表于 2025-5-18 20:27 | 显示全部楼层
谢谢楼主分享!
回复 支持 反对

使用道具 举报

  • 打卡等级:自成一派
  • 打卡总天数:321
发表于 2025-5-19 09:28 | 显示全部楼层
看了LZ的帖子,我只想说一句很好很强大!
回复 支持 反对

使用道具 举报

  • 打卡等级:炉火纯青
  • 打卡总天数:81
发表于 2025-5-19 11:25 | 显示全部楼层
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 注册

本版积分规则

文字版|手机版|小黑屋|RSS|举报不良信息|精睿论坛 ( 鄂ICP备07005250号-1 )|网站地图

GMT+8, 2025-5-20 19:31 , Processed in 0.208493 second(s), 4 queries , Redis On.

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表