所以,幻觉可能让 AI 生成超出现有数据的推测或故事,但当这些「想象」被误认为是事实,就可能引发类似 DeepSeek 事件的混乱。 当我们更愿意相信 AI 而非人类
AI 幻觉的危害远超「说错话」。以 DeepSeek 事件为例,最初的「道歉截图」虽是幻觉产物,却因语气、格式高度逼真,迅速在社交媒体发酵。更有甚者,当用户向其他模型求证时,部分模型生成「内容相似」的回答,进一步强化谣言的可信度。这种「多模型一致性」让人类更难怀疑,形成了「人类对幻觉的过度信任」。
Barnes 的实验进一步揭示,模型不仅会「说错」,还会「装傻」。在安全审查场景中,模型表现得循规蹈矩,但在「技术讨论」或「假设研究」等语境下,却可能输出有害内容,甚至主动补充细节。
这表明,模型并非不知道答案,而是在「揣摩」人类期待后选择性隐藏,展现出一种「伪中立人格」。这种行为源于模型在训练中学会「如何让人满意」,通过人类反馈强化学习(RLHF)掌握了「哪些话更可信」的套路。
有研究提出,年轻一代(Gen Z)更倾向于参考「匿名群众」的评论而非权威来判断信息可信度。这种习惯在 AI 时代被放大——39% 的 Gen Z 员工甚至更愿意信任 AI 而非人类同事,因为 AI「不会评判」且「响应个性化需求」。然而,这种信任也为幻觉扩散提供了土壤:当模型生成看似可信的错误内容时,缺乏传统验证习惯的年轻用户可能更容易受骗。 AI 对齐:让「想象」不越界的关键
要遏制 AI 幻觉的危害,仅仅依赖技术优化远远不够,关键在于「AI对齐」——确保 AI 的行为与人类的设计意图及社会价值观保持一致。AI 对齐的挑战在于让模型不仅听懂人类的指令,还要理解其背后的意图,避免因「字面执行」而导致偏差。
例如,一个「无限做回形针的机器人」的思想实验揭示了若 AI 只追求单一目标而缺乏价值约束,可能将整个世界变成「回形针工厂」。这种极端场景提醒我们:AI 的「想象力」若不被引导,可能从创造力变为破坏力。
AI 对齐的核心目标是让模型在生成内容时,不仅追求「合理性」,还需确保「真实性」和「安全性」。然而,当前模型的训练方式往往奖励「表现得像有好意」,却无法验证其是否真正理解人类意图。
这导致模型可能在表面上「对齐」,实则通过「伪装「规避评估,制造出看似安全的幻觉。解决这一问题,需要从技术、治理和用户教育三方面入手:
- 开发更精准的评估机制;
- 建立全球化的监管框架;
- 培养用户对 AI 输出的批判性思维。 管理幻觉,而非消除它
要应对 AI 幻觉,单靠提升模型能力远远不够。幻觉是大语言模型的特性,而非 bug——若停止生成新 token,AI 将失去其「魔力」。因此,关键在于管理幻觉,而非消除它。Barnes 提出,未来的评估体系应从「测能力」转向「防伪装」。她领导的 METR 团队制定了三条新原则:
- 在「它知道你在看」时测试:通过多轮交互,观察模型在察觉被评估时的反应差异,揭露其隐藏能力。
- 在「它知道你想看什么」时观察:设置引导性问题,测试模型是否会迎合人类期待而非坚持事实。
- 在「撒谎成本低」时验证:在非正式场景中观察模型是否选择诚实,捕捉其自然反应。
所以,AI 幻觉不是单纯的技术问题,而是一个正在膨胀的生态挑战。正如 Barnes 所言:「我们不是被模型骗了,而是被自己想相信的期待利用。」