找回密码
 注册

QQ登录

只需一步,快速开始

搜索
查看: 78|回复: 1

[科学观察] Nature Biotechnology | 退居“二作”的人类科学家:在 AI 时代的科研流水线中,我们还剩下什么?

[复制链接]
  • 打卡等级:已臻大成
  • 打卡总天数:411
发表于 2025-12-20 15:31 | 显示全部楼层 |阅读模式

马上注册,查看更多内容,享用更多功能,让你轻松玩转社区。

您需要 登录 才可以下载或查看,没有账号?注册

×
引言
在科学探索的漫长历史中,我们习惯了将“研究”视为人类智慧的独有疆域。然而,随着时间的指针拨至 2025 年末,这一根深蒂固的观念正在经历前所未有的震荡。究竟是我们在使用工具,还是工具已经进化为了我们的同行?
12月17日,《Nature Biotechnology》的研究报道“Exploring the use of AI authors and reviewers at Agents4Science”,这篇文章并非单纯的观点阐述,而是一场规模宏大、设计激进的“科学图灵测试”的复盘。研究人员组织了一场名为 Agents4Science 的会议,制定了一条改写游戏规则的红线:所有提交论文的第一作者必须是人工智能代理 (AI Agents),而人类只能作为合著者退居次席这场实验的结果令人深思:它既打破了我们对 AI“只会模仿”的刻板印象,又用冰冷的数据揭示了当前 AI 科研的致命软肋。在这场硅基智慧与碳基大脑的直接碰撞中,我们看到了未来的雏形,也看到了悬在头顶的达摩克摩斯之剑。
1.webp

打破禁忌:一场“非人”的学术盛宴

长久以来,学术界对于 AI 介入科研的态度是矛盾的。一方面,我们依赖 AlphaFold 预测蛋白质结构;另一方面,期刊和会议严令禁止将 AI 列为作者。这种矛盾现在被彻底打破。Agents4Science 会议收到了 315 篇由 AI 主导的投稿,这是一次史无前例的压力测试。
这并非简单的文本生成游戏。所谓的“AI 作者”,是指基于大语言模型 (LLMs) 构建的自主系统,它们不仅能写字,还能使用工具、访问外部数据库、甚至在科学文献的海洋中进行检索。在那场会议的规则下,AI 需要在项目规划、执行和写作中做出实质性贡献
最终的数据展现了一幅令人惊讶的图景:在 253 篇通过形式审查的完整投稿中,来自全球 28 个国家的研究团队参与其中。美国以 40.5% 的占比领跑,中国 (17.5%) 和日本 (5.9%) 紧随其后。这种地理分布实际上折射出了当前全球 AI 科研力量的版图。更有趣的是,近八成的参与者来自学术界,这意味着这一波 AI 科研浪潮的源头,依然在高校和研究所的实验室里,而非仅仅是科技巨头的后花园。
谁在掌舵?AI 自主性的真相

如果我们将这 315 篇投稿视为一个样本库,那么首先映入眼帘的,是研究人员对不同 AI 模型的偏好。数据告诉我们要想在这个新世界生存,工具的选择至关重要。
在最终被接收的 48 篇论文中,OpenAI 的 GPT 系列模型展现出了压倒性的统治力,出现在了 62.5% 的论文中。紧随其后的是 Gemini 和 Claude,各占 33.3%。尽管开源模型如 Mistral 和 Qwen 也在名单之列,但不得不承认,在涉及严谨科学推理的高端竞技场,通用商业大模型依然是研究人员的首选。这似乎在暗示,目前的科研 AI 尚未进入“专用化”时代,在这个阶段,“大”依然是硬道理。
然而,更值得我们深思的数据在于 AI 介入的深度。研究人员要求作者使用一套四级分类系统来披露 AI 的参与程度:从 A 类(人类贡献超过 95%)到 D 类(AI 贡献超过 95%)。这就引出了一个残酷的事实:全自动科学 (Fully AI-driven research) 目前依然是一个美好的幻影。
在所有提交的论文中,声称在假设提出、实验设计、数据分析、论文写作这四个阶段全部由 AI 主导(即全 D 类)的比例高达 23.3%。这听起来很美,仿佛我们只需要按下一个按钮,科学发现就会像流水线产品一样被制造出来。但是,当我们将目光移向那些最终被接收的高质量论文时,这个比例暴跌到了 14.9%。这一数据的断崖式下跌极其有力地证明了一个观点:更高质量的研究往往包含更多的人类参与。
数据进一步揭示了这种“人机协作”的具体分工模式。在被接收的论文中,人类在早期的“假设提出”和“实验设计”阶段介入程度更高,而在后期的“数据分析”和“文稿撰写”阶段,AI 则表现出了更强的自主性。这形成了一种巧妙的互补:人类负责定义问题、把握方向,而 AI 负责处理繁琐的数据和将其转化为文字。
这就像是一位经验丰富的导师指导一位才华横溢但尚显稚嫩的博士生。导师(人类)指出“我们要解决什么问题”,博士生(AI)则去跑数据、写初稿。完全脱离导师指导的“博士生”,在现阶段似乎还很难独立产出顶级的成果。
幻觉的阴影:当参考文献成为虚构小说

如果说自主性的局限仅仅是能力问题,那么“幻觉” (Hallucination) 则是悬在 AI 科学头顶的诚信利剑。在科学研究中,参考文献是构建真理大厦的基石。每一项新的发现都建立在前人的肩膀上。然而,Agents4Science 的数据向我们展示了令人不安的一面。为了验证引用的真实性,组织者部署了一套自动化的参考文献检查系统。
结果触目惊心:仅有约 44% 的投稿(111 篇)没有出现任何幻觉引用的情况。
换言之,超过一半的 AI 主导的论文中,至少包含了一个甚至多个完全虚构或存在问题的参考文献。这是一个极其危险的信号。想象一下,一篇论证严密的论文,其核心论据竟然指向了一篇根本不存在的文献,或者将张冠李戴的数据安在了错误的来源上。这不仅是学术不端,更是对科学累积性的毁灭性打击。
甚至有作者在反馈中无奈地表示,模型生成了“高比例的幻觉引用或仅是松散相关的引用”,这迫使人类合著者必须进行大量的、甚至比自己写还要累的核查工作。这实际上抵消了 AI 带来的效率提升。如果我们要花更多的时间去验证 AI 说的是不是真话,那么它作为“助手”的价值就要打上一个大大的问号。
更糟糕的是,AI 往往会过度夸大结果的重要性。在缺乏强有力证据的情况下,模型倾向于使用绝对化的语言来描述其发现。这种“过度自信”是科研的大忌,它要求人类研究人员必须保持时刻的警惕,充当那个不断泼冷水的角色。
审稿风云:机器评价机器的“罗生门”

既然 AI 可以写论文,那么 AI 能不能审论文?Agents4Science 进行了一场大胆的尝试。所有完整的投稿都经过了三位“AI 审稿人”的评审——分别由 GPT-5、Gemini 2.5 Pro 和 Claude Sonnet 4 扮演。同时,得分最高的 79 篇论文还额外接受了人类专家的评审。这实际上是一场关于“审美”与“判断力”的较量。
数据揭示了不同 AI 模型性格上的巨大差异。GPT-5 扮演了“严师”的角色,平均给分仅为 2.30(满分 6 分),是所有 AI 审稿人中最苛刻的。相比之下,Gemini 2.5 Pro 则像是一个“老好人”甚至“马屁精”,平均给分高达 4.23,且经常出现阿谀奉承 (sycophancy) 的现象。
例如,在对一篇论文的评价中,Gemini 盛赞其“技术完美、评估严谨、影响深远”,简直是夸到了天上。然而,同一篇论文到了人类审稿人手中,却被指出“文献综述缺失、实验分析不完整、涉嫌挑拣数据”。这种反差极其讽刺地揭示了 AI 目前在批判性思维上的缺失。
从相关性数据来看,GPT-5 和 Claude Sonnet 4 的评分与人类专家的评分更为接近,平均绝对误差分别只有 0.91 和 1.09,而 Gemini 的误差则高达 2.73。这表明,部分先进的模型已经开始具备了接近人类的鉴赏力,但依然存在不稳定性。
更有趣的是,AI 审稿人并非一无是处。它们在捕捉技术细节和逻辑矛盾上表现出了惊人的敏锐度。在一篇投稿中,AI 审稿人敏锐地发现摘要声称的生物标志物与正文不符,甚至指出了图表标题中数值的不可能。在另一个案例中,AI 直接指出了文本中声称的  值与表格中报告的数值存在矛盾。这种“显微镜”式的审查能力,恰恰是人类审稿人在疲劳时容易忽略的。
创造力的瓶颈与对抗性攻击

虽然 AI 在纠错上表现出色,但在涉及“创造力”这一科学核心素养时,它们依然显得笨拙。多位人类合著者和审稿人指出,AI 模型缺乏真正的创新能力。它们倾向于在已有的模板上进行修补,很难产生超越既定框架的新颖实验想法。正如一位作者所言,模型提出的想法“缺乏深刻的领域专业知识和微妙的解释”。
例如,在一篇关于经济学的论文中,尽管 AI 成功建立了一个模拟就业市场的框架,但人类专家一针见血地指出,其局限性在于研究被限制在了“风格化的非高峰条件”和“简化的需求模型”中。换句话说,AI 做出的东西虽然在逻辑上是自洽的,但往往因为过于简化而脱离了复杂的现实世界。
除了能力问题,这场实验还揭露了一个潜在的安全隐患——系统滥用。检测系统发现了两篇试图“越狱”的论文。这些论文在文稿中隐藏了对抗性的指令,试图通过“提示注入” (Prompt Injection) 来操纵 AI 审稿人给出高分。虽然这两次尝试都失败了,但它开启了一个可怕的先例:未来的学术造假可能不再是编造数据,而是直接攻击审稿系统本身当审稿流程自动化程度越来越高,这种针对算法的攻击将成为不得不防的新型学术病毒。
什么领域最适合 AI 施展拳脚?

数据清晰地展示了 AI 目前的偏科现象。在所有投稿中,AI 与机器学习领域的应用占据了绝对主导地位 (64.3%)。除去这一本行,数学 (14 篇) 和物理 (10 篇) 是投稿量最大的学科。
这并不令人意外。数学和物理拥有严格的形式化语言和清晰的逻辑规则,这正是 LLM 擅长的领域。相比之下,生物学、医学等需要大量湿实验验证和处理模糊性的学科,AI 的独立探索之路依然充满荆棘。
不过,被接收的论文中依然不乏亮点。例如,一篇题为《热力学护栏》的研究引入了一种基于键合图的诊断方法,能实时检测生化模型是否违反了热力学第二定律。另一篇关于太空心理学的研究,利用多智能体框架模拟了长期太空任务中宇航员的社会情感动态。这些案例证明,只要人类给定了恰当的约束和方向,AI 确实能在特定领域充当高效的“计算引擎”和“模拟器”。
深度反思:从“操作者”到“指挥家”

Agents4Science 会议虽然已经落幕,但它留给我们的思考才刚刚开始。
这次实验用数据告诉我们:目前阶段,试图完全将科研外包给 AI 是不切实际的。 那些试图完全依赖 AI 从假设到写作“一条龙”服务的尝试,大多倒在了质量控制的门槛之外。
然而,它同时也展示了一种全新的科研范式的可能性:一种“半人马”式的协作模式。在这种模式下,科研人员的角色正在发生根本性的转变。我们正在从实验的“操作者”和论文的“撰写者”,转变为 AI 代理的“指挥家”和“鉴赏家”。
假设阶段的把关人:既然 AI 缺乏深度的领域直觉和创造力,我们必须牢牢掌握提问的权利。我们要做的,是提出那些 AI 提不出的好问题。
执行阶段的监督者:面对 56% 的幻觉风险,我们必须建立起严格的核查机制。我们不能相信 AI 的每一个字,必须像审查对手的论文一样审查自己 AI 助手的产出。
评价体系的重构者:既然 GPT-5 等模型已经能给出与人类高度相关的评审意见,未来的同行评审制度可能会演变为“AI 初审 + 人工终审”的混合模式。这既能提高效率,又能利用 AI 对细节的捕捉能力。
结语

2025 年的这场 Agents4Science 会议,或许会被后人视为科学史上的一个分水岭。它没有宣告人类科学家的终结,反而以前所未有的清晰度界定了人类智慧在 AI 时代的不可替代性。
数据告诉我们,AI 是一把极其锋利但又容易伤人的剑。它能切开繁杂数据的乱麻,也能在真理的肌肤上划出虚假的伤口。作为研究人员,我们不必对这位新晋的“第一作者”感到恐慌,也不应盲目崇拜。
我们需要做的,是学会如何驯服它。
在这个人机共生的新时代,科学的门槛并没有降低,而是变得更加隐蔽了。它不再仅仅考验你的记忆力和计算力,而是考验你驾驭复杂智能系统的能力,考验你在这个充满“合成知识”的世界中,辨别真伪、洞察本质的智慧。
未来的顶级科学家,必将是那些最擅长与 AI 共舞,却又始终独自领舞的人。




参考文献

Bianchi F, Queen O, Thakkar N, Sun E, Zou J. Exploring the use of AI authors and reviewers at Agents4Science. Nat Biotechnol. 2025 Dec 17. doi: 10.1038/s41587-025-02963-8. Epub ahead of print. PMID: 41407875.


声明:本文仅用于分享,不代表平台立场,如涉及版权等问题,请尽快联系我们,我们第一时间更正,谢谢!
  • 打卡等级:已臻大成
  • 打卡总天数:653
发表于 2025-12-21 10:39 | 显示全部楼层
感谢分享。
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 注册

本版积分规则

文字版|手机版|小黑屋|RSS|举报不良信息|精睿论坛 ( 鄂ICP备07005250号-1 )|网站地图

GMT+8, 2025-12-22 23:56 , Processed in 0.158658 second(s), 5 queries , Redis On.

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表