UID692495
注册时间2014-3-16
最后登录1970-1-1
在线时间 小时
听众
收听
性别保密
阅读权限85
|
马上注册,查看更多内容,享用更多功能,让你轻松玩转社区。
您需要 登录 才可以下载或查看,没有账号?注册
×
近日,澳大利亚昆士兰科技大学(QUT)公共卫生与社会工作学院教授阿德里安·巴内特(Adrian Barnett)领导的一项国际合作研究,使用先进的机器学习工具,揭示了癌症研究领域的恐怖真相:在1999年至2024年间发表的260多万篇癌症相关论文中,有超过25万篇被标记为疑似论文工厂产物。
其中,中国研究机构产出的论文占了最大比例,超过17万篇,约占中国癌症研究产出论文的36%。
这项研究发表在权威医学期刊《英国医学杂志》(The BMJ)上。
巴内特团队开发了一种基于BERT语言模型的机器学习算法,能够通过分析论文标题和摘要中的文本模式,识别出与已知假论文相似的特征。这些特征包括重复文本、捏造数据或不正确的试剂引用等。
论文工厂是一种新兴的学术欺诈形式,主要通过付费服务为研究者提供“现成”论文。这些工厂往往位于发展中国家,利用低成本劳动力批量生成文章,包括虚构实验数据、篡改图像或抄袭现有文献。
客户通常是面临发表压力的学者、医生或机构,他们支付数千美元,就能获得一篇“定制”论文,快速发表在期刊上以满足晋升或赞助要求。
根据BMJ研究,癌症领域特别容易受影响,因为它涉及大量基础实验室研究,如分子生物学和早期癌症机制。这些领域的数据相对容易伪造,且审稿人难以一一验证。
阿德里安·巴内特
巴内特教授的工具正是针对这一痛点设计的。
团队开发了一种基于BERT(基于Transformers的双向编码器,Bidirectional Encoder Representations from Transformers)的文本分类模型,将检测假论文视为二元分类问题:真实或欺诈。该模型通过分析论文标题和摘要的文本模式,识别与已知撤回论文相似的“指纹”,如生硬表述(awkward phrasing)、模板化表述、重复文本或捏造数据引用。
巴内特团队从Retraction Watch数据库中提取了2270篇标记为“论文工厂”相关的撤回论文,经过筛选(如排除非PubMed匹配、非撤回或缺失原文),保留2202篇作为阳性样本。这些样本多涉及图像篡改、数据伪造等欺诈特征。
为平衡数据集,他们选择了2202篇对照样本(阴性样本),作为真实论文的代理。这些对照来自高影响力期刊(如Cell、Cancer Cell,影响因子前10%),以及撤回率较低的国家(如瑞典、芬兰、挪威)的论文,还包括少量中国高影响力期刊论文,以缓解语言偏见。
在实际应用中,模型扫描了PubMed(公共医学领域最大的在线文献检索系统)的癌症语料库。首先,通过关键词匹配(如“cancer”或“neoplasm”)过滤出264万篇原创期刊文章,排除非英语、空摘要、重复、非期刊类型和撤回通知,最终保留261万篇。
然后,研究团队把这个训练好的机器学习模型,应用到PubMed数据库里所有符合条件的癌症相关论文上。具体做法是:对每一篇论文的标题和摘要文本,全部输入模型进行分析。
模型会给每篇论文打一个“可疑分数”(分类概率),分数越高,就说明这篇论文的语言模式越像那些已经被确认为论文工厂产物并撤稿的假论文。
研究设定了某个特定的阈值(threshold):只要一篇论文的分类概率超过了这个阈值,就会被标记为“疑似论文工厂产物”。
最终统计结果是:在总共约264万篇原始癌症论文中,有261245篇(占9.87%)被模型标记为可疑。
简单来说,研究用AI“扫描”了260多万篇癌症论文的标题和摘要,凡是语言风格太像已知假论文的,就打上“可疑”标签。最后发现差不多每10篇里就有1篇被标记为可疑。
研究摘要中特别指出超过17万篇被标注论文来自中国研究机构
研究中最引人注目的部分是地理分布分析。基于第一作者机构的归属,被标记论文遍布25个国家,中国遥遥领先。
BMJ报告显示,中国机构附属的癌症论文中,有177907篇被标记为论文工厂产出,占中国癌症论文总产出的36%。
相比之下,美国有10,511篇(占美国癌症论文的2%),而伊朗为6,801篇(20%),沙特阿拉伯1,607篇(16%),埃及2,229篇(15%),巴基斯坦883篇(13%),马来西亚870篇(13%)。
为什么中国成为焦点?可能是因为中国学术界面临巨大压力,很多大学和机构采用“非升即走”的模式,并将论文发表量与职称、经费挂钩,导致“刷论文”现象盛行。某些“论文工厂”以“服务”形式运作,甚至在淘宝或微信上公开售卖。
假论文的泛滥对癌症领域的影响深远。
癌症是全球主要死因,每年影响数亿人。基础研究如胃癌(标记率22%)、骨癌(21%)、肝癌(20%)和肺癌等领域,受污染最重。这些假数据可能误导药物开发,导致无效临床试验。巴内特教授警告:“假研究可能延迟真正突破,浪费资源,甚至危害患者。”
对于17万这个巨大的数字,国内研究机构应该反思唯论文评价体系下的“非升即走”的残酷生存逻辑,这是一个科研产出与职称、经费、排名层层捆绑的畸形生态。
当知识创新变成流水线上的“量产商品”,受损的不仅是科学共同体赖以维系的诚信基石,更是全人类对抗癌症这一共同敌人的希望与未来。
巴内特团队论文地址:https://www.bmj.com/content/392/bmj-2025-087581 |
|