找回密码
 注册

QQ登录

只需一步,快速开始

搜索
查看: 19|回复: 4

[数码资讯] 研究证实:AI 大模型跨多轮对话任务表现不佳,性能最高降 39%

[复制链接]
  • 打卡等级:功行圆满
  • 打卡总天数:733
发表于 2026-3-1 09:33 | 显示全部楼层 |阅读模式

马上注册,查看更多内容,享用更多功能,让你轻松玩转社区。

您需要 登录 才可以下载或查看,没有账号?注册

×
据 THE DECODER 报道,新一代大语言模型(从 GPT-5 及后续版本开始)在任务需要跨多轮对话完成时,表现依然不佳。研究员菲利普 · 拉班(Philippe Laban)及其团队在代码、数据库、操作指令、数据转文本、数学计算、文本摘要这六大任务上对现有模型进行了测试。当信息被拆分到多条消息中(分片式),而非集中在单次提示词里(拼接式)时,模型性能会显著下降。



IT之家注意到,更新的模型表现略好一些,性能降幅从 39% 缩小到 33%,但问题远未解决。Python 任务的提升最为明显,部分模型仅损失 10%–20% 的性能。拉班认为,实际场景中的性能损失可能更严重,因为测试只使用了简单的用户模拟;如果用户在对话中途改变想法,性能下降幅度可能会更大。

原始研究发现,调低温度值(temperature)这类技术微调无法解决这一问题。研究人员建议:一旦出现异常,重新开启一段新对话,最好先让模型把所有请求总结一遍,再用这份总结作为新对话的起点。
  • 打卡等级:自成一派
  • 打卡总天数:209
发表于 2026-3-1 09:35 | 显示全部楼层
看了LZ的帖子,我只想说一句很好很强大!
回复 支持 反对

使用道具 举报

  • 打卡等级:已臻大成
  • 打卡总天数:515
发表于 2026-3-1 10:33 | 显示全部楼层
感谢分享。
回复 支持 反对

使用道具 举报

  • 打卡等级:功行圆满
  • 打卡总天数:735
发表于 2026-3-1 11:08 | 显示全部楼层
感谢分享!
回复 支持 反对

使用道具 举报

  • 打卡等级:自成一派
  • 打卡总天数:289
发表于 2026-3-1 11:36 | 显示全部楼层
感谢分享
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 注册

本版积分规则

文字版|手机版|小黑屋|RSS|举报不良信息|精睿论坛 ( 鄂ICP备07005250号-1 )|网站地图

GMT+8, 2026-3-1 12:10 , Processed in 0.136958 second(s), 4 queries , Redis On.

Powered by Discuz! X3.5

© 2001-2026 Discuz! Team.

快速回复 返回顶部 返回列表