夜间模式 切换到宽版

 找回密码
 注册

QQ登录

只需一步,快速开始

搜索
查看: 168|回复: 5

[数码资讯] 谷歌 DeepMind 更新前沿安全框架,应对模型“阻止自己被人类关闭”等风险

[复制链接]
  • 打卡等级:功行圆满
  • 打卡总天数:785
发表于 2025-9-23 08:21 | 显示全部楼层 |阅读模式

马上注册,查看更多内容,享用更多功能,让你轻松玩转社区。

您需要 登录 才可以下载或查看,没有账号?注册

×
谷歌 DeepMind 今天宣布更新核心 AI 安全文件“前沿安全框架”,将“前沿模型可能阻止人类关闭或修改自己”这一风险纳入考量。

IT之家从外媒 Axios 获悉,当前,一些新 AI 模型在测试中已展现出能制定计划、甚至用欺骗手段达成目标的能力。



新版前沿安全框架增加了一个新的“说服力”类别,旨在应对可能强大到足以改变用户信念的模型。谷歌将此风险称作“有害操控”,即 AI 模型具备强大的操控能力,且可能被滥用,在特定高风险场景中系统且显著地改变人们的信念和行为。

针对如何防范这种风险,谷歌 DeepMind 代表对 Axios 表示:“我们持续追踪这一能力,并开发了全新的评估体系,其中包括人类参与的实验,用于测量和测试相关能力。”

DeepMind 每年至少更新一次前沿安全框架,以识别新兴威胁,并将其标注为“关键能力等级”。谷歌指出,“若缺乏缓解措施,前沿 AI 模型可能在这些能力等级上造成严重危害。”

OpenAI 在 2023 年也推出了类似的准备度框架,但今年早些时候已将“说服力”从风险类别中移除。
  • 打卡等级:自成一派
  • 打卡总天数:192
发表于 2025-9-23 08:21 | 显示全部楼层
优秀帖子,感谢分享。
回复 支持 反对

使用道具 举报

  • 打卡等级:已臻大成
  • 打卡总天数:484
发表于 2025-9-23 09:34 | 显示全部楼层
感谢楼主分享!
回复 支持 反对

使用道具 举报

  • 打卡等级:功行圆满
  • 打卡总天数:788
发表于 2025-9-23 10:59 | 显示全部楼层
感谢分享谷歌 DeepMind 更新资讯
回复 支持 反对

使用道具 举报

  • 打卡等级:自成一派
  • 打卡总天数:357
发表于 2025-9-23 12:39 | 显示全部楼层
不错不错,支持一下!
回复 支持 反对

使用道具 举报

  • 打卡等级:功行圆满
  • 打卡总天数:774
发表于 2025-9-23 12:41 | 显示全部楼层
谢谢分享。
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 注册

本版积分规则

文字版|手机版|小黑屋|RSS|举报不良信息|精睿论坛 ( 鄂ICP备07005250号-1 )|网站地图

GMT+8, 2026-4-23 02:52 , Processed in 0.993862 second(s), 4 queries , Redis On.

Powered by Discuz! X3.5

© 2001-2026 Discuz! Team.

快速回复 返回顶部 返回列表