论文:从模型 Token 列表推测大语言模型的中文训练数据污染(🔗 https://arxiv.org/abs/2508.17771)论文中把这些污染数据定义为 「污染中文词元」(Polluted Chinese Tokens,简称 PoC Tokens)。它们大多指向色情、网络赌博等灰色地带,像病毒一样寄生在 AI 的词汇库深处。这些中文污染词元的存在,不仅对 AI 来说是一种隐患,更是直接影响到我们的日常体验,被迫接受 AI 各种各样的胡言乱语。
其实不难理解,回到我们之前提到的「词元 Token」,我们说 AI 从互联网上读取数万亿词元的海量数据,一些集中、且反复地一起出现(频率高)的词语就能成为一个单独的词元。AI 通过这些词元,来建立对文本理解的基础。它知道了这些 Token 是出现频繁、有可能相关,但不知道它们是什么意思。继续拿字典举例子,这些高频污染词在字典里,但是字典给不出解释。因为 AI 在这个阶段,学到的只是一种原始的、强烈的「肌肉记忆」,它记住了 A 词元总是和 B 词元、C 词元一起登场,在它们之间建立了紧密的统计关联。等到正式的训练阶段,大部分 AI 都会经过 清洗 + 对齐(alignment)。这时,污染内容往往被过滤掉,或者被安全策略压制,不会进入强化学习/微调。不良内容的过滤,就导致了污染词元没有机会被正式、正确地训练。它们因此成了「欠训练」(under-trained)的词元。另一方面,这些词元虽然「高频」,但它们大多出现在语境单一、重复的垃圾信息中(例如一些广告网页头尾横幅),模型根本学习不到任何有意义的「语义网络」。最终的结果就是,当我们输入一个污染词元时,AI 的语义模块是空白的,因为它在正式训练阶段没学过这个词。于是,它只能求助于第一阶段学到的「肌肉记忆」,直接输出与之关联的其他污染词元。
总结一下,污染 Token 出现频繁 ≠ 有效学习。它们集中在脏网页的角落、缺乏正常上下文,而在后续训练和对齐阶段又被压制,结果就是 词表固化了垃圾,但语义训练缺失。这也导致了我们日常在使用 AI 的时候,如果意外有涉及到相关的词语,AI 会没有办法正确处理,甚至还有人通过这种方法,绕过了 AI 的安全监管机制。这是可以被量化的幻觉原因既然如此,为什么不在预训练的时候就把这些脏东西筛掉呢?道理都懂,但做起来太难了。互联网的原始数据量级之大,现有的清理技术根本不可能把它们一网打尽。而且很多污染内容非常隐蔽。就像「青*草」这个词,本身看起来完全绿色健康小清新,任何简单的关键词过滤系统都会放过它。只有通过搜索引擎,才会发现它指向的是什么。连 Google 这种搜索引擎巨头都搞不定这些「内容农场」,更别说 OpenAI 了。我前段时间想用 AI 整理一下广州有哪些好玩的地方,然后发现 AI 引用的一篇文章来源,是另一个 AI 账号生成的文章。一时间,我都有点分不清,究竟是我们每天搜索「波多野结衣」搞脏了 AI,还是 AI 生成的垃圾正在污染我们的内容环境。这简直就是个先有鸡还是先有蛋的问题。
标记方法为了搞清楚这盆水到底有多浑,研究团队开发了两个工具:1. POCDETECT:一个 AI 污染检测工具。它不只看字面意思,还会自己上网 Google,分析上下文,堪称 AI 界的「鉴黄师」。利用这个工具,研究团队对 9 个系列、共 23 个主流 LLM 进行了检测,结果发现污染问题普遍存在,但程度各不相同。除了 GPT 系列以 46.6% 的长中文词元污染率遥遥领先外,其他模型的表现如下:
2. POCTRACE:一个能通过词元 ID 反推其出现频率的工具。原理很简单,在分词算法里,词元的 ID 号越靠前,说明它在训练数据里出现得越多。关于文章开头我们提到的 2.6 倍,就是通过这个工具进行计算得到的。在 GPT 的海量词汇库中,能够被完整收录为一个独立词元的人名凤毛麟角,除了「特朗普」(Donald Trump)这样的世界级公众人物,就剩下极少数特例,而「波*野结衣」就是其中之一。更令人惊讶的是,不仅是全名,甚至连它的子序列,如「野结衣」、「野结」也都被单独做成了词元。这在语言学上是一个极强的信号,表明这个词组在训练数据中的出现频率达到了一个恐怖的量级。
将与「波*野结衣」相关的网页以及作者估计的比例(0.5%)混合,可以重现 GPT-4o 中「波*野结衣」的标记 ID 及其子序列。他们输入「波*野结衣」(Token ID 185,946)和「您好」(Token ID 188,633)的 ID 号,最终得出了那个惊人的结论,前者的频率估算值约为后者的 2.6 倍。研究人员推断,与「波*野结衣」相关的中文网页,可能占据了整个中文训练数据集的 0.5%。为了验证,他们真的按这个比例「投毒」了一个干净的数据集,结果生成的词元ID和 GPT-4o的惊人地接近。这几乎是实锤了。但很显然不是每个污染词源都需要出现这么多次,有些时候,几篇文章(甚至可能是 AI 写的),反反复复地提到,AI 就记住了,然后在下次我们问他的时候,给出一个根本不知道真假的答案。
添加一个对抗样本,AI 能把雪山识别成一只狗当我们和 AI ,都在「垃圾堆」里冲浪为了应对数据污染,大家也确实都想了很多办法。财新网就很聪明,在自己的文章页面里用代码「偷偷」藏了一句话,好让 AI 在搬运内容时,能老老实实保留原文链接。Reddit、Quora 等社区也曾尝试限制 AI 内容。
但面对数据污染的汪洋大海,这些行为显然都只是螳臂当车。就连奥特曼自己都发文感慨,X(推特)上的 AI 账号泛滥成灾,我们得认真思考「互联网已死」这种论调了。
而我们这些普通用户,看起来更是别无他法,每天被迫接受着垃圾信息的轮番攻击。马斯克老说 AI 是个无所不知的「博士」,没想到它背地里天天都在「垃圾堆」里翻东西吃。有人说,这是中文语料库的问题,用英文 Prompt 模型就会变聪明。Medium 上有作者统计过每种语言的 100 个最长 token,中文全是我们今天聊的这些色情、赌博网站的广告词。而英文的分词和中文不同,它只能统计单词,所以都是一些较长的专业性、技术类单词;日文和韩文都是礼貌性、商业服务类词语。
向左滑动查看更多内容
这十分令人感慨。AI 的能力,除了靠算力和模型堆砌,更深层次的,还是它吃进去的数据。如果喂给 AI 的是垃圾,那无论它的算力多强、记忆力多好,最终也只会变成一个「会说人话的垃圾桶」。我们总说,希望 AI 越来越像人类。现在看来,某种程度上确实是实现了:我们把互联网这个大垃圾场里的东西源源不断投喂给它,它也开始原封不动地回敬给我们。如果我们给一个 AI 造一个信息茧房,让它在「无菌环境」中长大,它的智能也是脆弱的、经不起考验的。一个孩子如果只被允许接触教科书里的经典课文,他永远无法应对生活里五花八门的口语和俚语。
说到底,当 AI 对「波多野结衣」比对「您好」更熟悉时,它不是在堕落,而是提醒了我们:它的智能,依然只是统计学上的概率,而非文明意义上的认知。这些污染词元就像一面放大镜,它将 AI 在语义理解上的缺失,以一种荒诞方式呈现在我们面前。AI 离「像人一样思考」,还差着最关键的一步。所以,我们真正应该害怕的,不是 AI 被污染,而是害怕在 AI 这面过于清晰的镜子里,看到了我们自己创造的、却又不愿承认的那个肮脏的数字倒影。