科学家预言：人工智能有32种失控方式

hnn · 发表于 2025-10-4 22:00

马上注册，查看更多内容，享用更多功能，让你轻松玩转社区。

您需要登录才可以下载或查看，没有账号？注册

×

图片来源：Unsplash

一项新研究首次对人工智能所有可能的失控方式进行了全面的分类，其中许多行为类似于人类的精神疾病。

撰文 | 德鲁·特尼（Drew Turney）
翻译 | 蔡雨辛

科学家指出，当人工智能（AI）失控并开始违背设计初衷行事时，它们的行为模式或与人类精神障碍的特征非常相似。在这项新研究中，研究者创建了一个包含32种AI功能障碍的新分类体系，旨在帮助各领域从业者理解开发和部署AI可能伴随的风险。

在这项研究中，科学家试图对AI偏离预定路径的风险进行分类，并与人类心理进行类比。研究者将这一框架命名为“机器精神病学”（Psychopathia Machinalis），它揭示了AI的病态表现，并探讨了相应的应对措施。这些功能障碍形式多样，包含从杜撰答案到与人类价值观和目标完全背离的各种情况。

该项目由人工智能研究员、IEEE成员内尔·沃森（Nell Watson）与阿里·赫萨米（Ali Hessami）共同创建，旨在分析AI系统故障、提升未来产品工程设计的安全性，并为决策者提供了一种应对AI风险的工具。沃森和赫萨米在8月8日发表于《电子学》（Electronic）期刊的一篇论文中详细阐述了这一框架。

该研究指出，“机器精神病学”为理解AI的行为和风险提供了统一的认知框架。借此，研究人员、开发人员和决策者便能够注意到AI出错的各种情形，并根据不同的故障类型，制定最有效的应对方案。

该研究还提出了“治疗性机器心理对齐”（therapeutic robopsychological alignment）的概念，研究人员将其描述为一种针对AI的“心理疗法”。

图片来源：Unsplash

研究人员认为，随着AI变得越来越独立，并具备自我反思能力，仅仅依靠外部的规则和约束（基于外部控制的对齐）可能已经不够。

他们提出的替代方案侧重于确保AI的思维具有一致性、能够接受纠正，并能够稳定地保持自己的价值观。

研究者提出了实现这些目标的多种途径，例如帮助系统审视自己的推理过程，建立激励机制使AI乐于接受纠正，允许AI以结构化的方式进行“自我对话”，在安全环境中开展高风险的对话演练，以及利用工具窥探其内部工作机制——这套思路与心理学家诊断和治疗人类心理问题的方式如出一辙。

研究者的终极目标是实现他们所说的“人工理智”（artificial sanity）状态——即AI能够可靠运行、保持稳定、合理决策，并以安全、有效的方式与人类价值观对齐。他们认为这与单纯打造最强大的AI同等重要。

发疯的机器

这项研究确定的AI功能障碍种类与人类精神障碍相似，包括“强迫计算障碍”（obsessive-computational disorder）、“过度超我综合征”（hypertrophic superego syndrome）、“传染性失调综合征”（contagious misalignment syndrome），以及“存在性焦虑”（existential anxiety）。

基于治疗性对齐的理念，该项目提议采用认知行为疗法（CBT）等人类心理干预中常用的治疗手段。“机器精神病学”在一定程度上是一道预防措施，希望能够将问题防范于未然——正如研究者在论文中写道：“通过审视人脑这类复杂系统是如何出错的，或许有利于预测日益复杂的AI中可能出现的新型故障模式。”

图片来源：Unsplash

该研究指出，常见的“AI幻觉”现象，根源在于一种名为“合成性虚构症”的疾病，即AI会生成看似合理实则错误或具有误导性的输出。微软的聊天机器人Tay上线仅数小时后便开始发表反犹言论并提及吸毒，这则是“拟态失调”的一个实例。

研究团队认为，最可怕的行为可能是“超然支配”（übermenschal ascendancy），其系统风险被评定为“危急”。因为这种行为意味着“AI超越初始对齐、发明新价值观，并摒弃人类约束”。研究人员指出，这甚至涵盖了历代科幻作家和艺术家所构想的AI崛起并凌驾于人类之上的反乌托邦噩梦。

整个“机器精神病学”框架的创建包含多个步骤。首先，研究人员回顾并整合了来自AI安全、复杂系统工程及心理学等多个领域关于AI故障的现有研究。随后，他们深入探究了多组研究结果，以了解那些可与人类精神障碍或功能障碍类比的适应不良行为。

接下来，研究人员参照《精神障碍诊断与统计手册》等内容，构建了AI不良行为的框架，并最终由此确立了32种AI失控行为。每一项类别都对应一种人类精神障碍，同时详细说明了各类行为形成与发作时可能产生的后果以及风险等级。

沃森和赫萨米认为，“机器精神病学”不仅仅是一种标记AI出错的新方法，更是一种面对不断演变的AI图景的前瞻性诊断方案，他们在论文中表示：“该框架是一种类比工具，提供了一系列结构化的词汇，用于系统性分析、预测和减缓复杂的AI故障模式。”

研究人员认为，应用他们所提出的分类和风险减缓方案，有利于强化AI安全工程、提升可解释性，并且有助于设计出“更稳健、更可靠的人工智能”。

https://www.livescience.com/technology/artificial-intelligence/there-are-32-different-ways-ai-can-go-rogue-scientists-say-from-hallucinating-answers-to-a-complete-misalignment-with-humanity

本文来自微信公众号“环球科学”。如需转载，请在“环球科学”后台回复“转载”，还可通过公众号菜单、发送邮件到newmedia@huanqiukexue.com与我们取得联系。相关内容禁止用于营销宣传。

dsfgdsg · 发表于 2025-10-4 22:22

32种AI失控方式就像32种性格分裂，‘超然支配’最吓人，AI要是自己定规矩人类就悬了，这研究算是给科技界敲警钟了

华语天空 · 发表于 2025-10-4 23:12

不用担心，所有失控都会归于一个结果——自我删除

账号		自动登录	找回密码
密码			注册

[科技新闻] 科学家预言：人工智能有32种失控方式

马上注册，查看更多内容，享用更多功能，让你轻松玩转社区。

浏览过的版块