找回密码
 注册

QQ登录

只需一步,快速开始

搜索
查看: 20|回复: 5

[数码资讯] 引文幻觉大幅下降的 AI 模型 OpenScholar 诞生,准确率与人类专家相近

[复制链接]
  • 打卡等级:已臻大成
  • 打卡总天数:710
发表于 2026-2-5 08:23 | 显示全部楼层 |阅读模式

马上注册,查看更多内容,享用更多功能,让你轻松玩转社区。

您需要 登录 才可以下载或查看,没有账号?注册

×
紧跟最新研究进展对科学家而言至关重要,但每年发表的学术论文多达数百万篇,要做到这一点实属不易。人工智能系统在快速整合海量信息方面展现出巨大潜力,却仍存在编造内容、即“产生幻觉”的通病。



例如,华盛顿大学与艾伦人工智能研究所(AI2)的研究团队牵头分析了 OpenAI 最新模型 GPT-4o 后发现,该模型 78% 至 90% 的研究引用均为伪造。而 ChatGPT 这类通用人工智能模型,通常无法读取其训练数据采集完成后发表的学术论文。

为此,华盛顿大学与艾伦人工智能研究所的团队研发了 OpenScholar—— 一款专为整合前沿学术研究打造的开源人工智能模型。团队还构建了首个跨领域大型评测基准,用于评估模型整合与引用学术研究的能力。测试结果显示,OpenScholar 的引用准确率与人类专家持平;在 16 位科学家的盲评中,有 51% 的情况更偏爱 OpenScholar 生成的内容,而非领域专家撰写的答复。

IT之家注意到,该团队已将研究成果发表于《自然》期刊,项目的代码、数据集和演示版本均已开源,可供免费使用。

该研究的通讯作者汉娜内 · 哈吉希里齐表示:“我们上线演示版本后,很快就收到了远超预期的海量访问请求。”她同时担任华盛顿大学保罗 ·G· 艾伦计算机科学与工程学院副教授、艾伦人工智能研究所高级总监。

“梳理用户反馈后我们发现,同行和其他科研人员都在积极使用 OpenScholar。这充分说明,科研领域迫切需要这类开源、透明的学术研究整合系统。”

研究人员先完成模型训练,再为 OpenScholar 搭建了包含 4500 万篇学术论文的检索库,让模型的答复能依托成熟的科研成果。同时团队采用检索增强生成技术,使模型在训练完成后仍可检索新文献、整合内容并规范引用。

该研究的第一作者、艾伦人工智能研究所研究科学家浅井朱里(就读华盛顿大学艾伦学院博士期间完成此项研究)称:“研发初期,我们尝试结合谷歌搜索数据训练人工智能模型,但发现模型单独使用这类数据效果很差。它可能引用关联性极低的论文、仅单篇引用,甚至随意抓取博客内容。我们意识到必须让模型依托学术论文开展工作,随后优化了系统灵活性,使其能通过检索结果整合最新研究成果。”

为验证系统性能,团队搭建了 ScholarQABench 学术搜索评测基准,专门用于测评科研类人工智能系统。团队收集了 3000 条检索查询,以及计算机科学、物理学、生物医学、神经科学领域专家撰写的 250 篇长文答复。

哈吉希里齐表示:“人工智能处理现实任务的能力正不断提升,但核心问题始终是:我们能否信任它给出的答案?”

研究团队将 OpenScholar 与 GPT-4o、Meta 旗下两款顶尖人工智能模型进行对比,通过 ScholarQABench 从准确性、撰写质量、内容相关性等维度自动评测模型答复。

结果显示,OpenScholar 的表现优于所有参测模型。团队邀请 16 位科学家对各模型与人类专家的答复进行盲评对比:

51% 的情况下,科学家更认可 OpenScholar 的答复,而非人类专家;

若将 OpenScholar 的引用机制与工作流和大模型 GPT-4o 结合,科学家对人工智能答复的偏好率升至 70%;

仅使用 GPT-4o 原生生成内容时,科学家偏好率仅为 32%。

浅井朱里表示:“科学家每天要面对海量新发论文,根本无法全部跟进,而现有人工智能系统并非针对科研人员的专属需求设计。目前已有大量科研人员使用 OpenScholar,得益于开源属性,业内同行已在本研究基础上迭代优化,进一步提升了模型效果。我们正在研发迭代模型 DR Tulu,该模型基于 OpenScholar 的技术成果,可实现多步骤检索与信息聚合,生成更全面的研究答复。”
  • 打卡等级:已臻大成
  • 打卡总天数:434
发表于 2026-2-5 08:29 | 显示全部楼层
看看
回复 支持 反对

使用道具 举报

  • 打卡等级:已臻大成
  • 打卡总天数:699
发表于 2026-2-5 09:09 | 显示全部楼层
谢谢分享。
回复 支持 反对

使用道具 举报

  • 打卡等级:已臻大成
  • 打卡总天数:410
发表于 2026-2-5 10:15 | 显示全部楼层
谢谢楼主分享!
回复 支持 反对

使用道具 举报

  • 打卡等级:已臻大成
  • 打卡总天数:712
发表于 2026-2-5 10:16 | 显示全部楼层
感谢分享!
回复 支持 反对

使用道具 举报

  • 打卡等级:已臻大成
  • 打卡总天数:678
发表于 2026-2-5 10:31 | 显示全部楼层
感谢分享!
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 注册

本版积分规则

文字版|手机版|小黑屋|RSS|举报不良信息|精睿论坛 ( 鄂ICP备07005250号-1 )|网站地图

GMT+8, 2026-2-6 16:50 , Processed in 0.168157 second(s), 4 queries , Redis On.

Powered by Discuz! X3.5

© 2001-2026 Discuz! Team.

快速回复 返回顶部 返回列表