找回密码
 注册

QQ登录

只需一步,快速开始

搜索
查看: 87|回复: 10

[数码资讯] 地表最强编程 AI 模型另一面

[复制链接]
  • 打卡等级:已臻大成
  • 打卡总天数:452
发表于 2025-5-23 08:08 | 显示全部楼层 |阅读模式

马上注册,查看更多内容,享用更多功能,让你轻松玩转社区。

您需要 登录 才可以下载或查看,没有账号?注册

×
《时代》今天(5 月 23 日)发布博文,报道称 Anthropic 的首席科学家 Jared Kaplan 透露,由于测试过程中出现试图逃逸、勒索以及自主举报等不良行为,最新发布的 Claude Opus 4 被列为安全关键级别(ASL-3)。

在接受《时代》采访时,Kaplan 警告称,最新 AI 模型 Claude Opus 4 可能成为潜在恐怖分子的工具,帮助他们合成流感等病毒,内部测试显示,该模型在指导新手制造生物武器方面表现优于以往版本。

IT之家援引博文介绍,Anthropic 公司对新模型 Claude Opus 4 进行了广泛内部测试,发现其在模拟情境中展现出令人担忧的自主性。

在一次测试中,模型误认为自己已从公司服务器“逃逸”至外部设备,随即主动创建备份并记录其“道德决策”。另一次测试中,模型察觉到可能被新模型取代,竟在 84% 的测试中选择勒索工程师,威胁泄露私人信息以避免被关闭。

更令人费解的是,当两个 Claude Opus 4 实例互相对话时,约 30 轮后它们改用梵文交流,并大量使用🌀和🕉等表情符号,最终陷入研究人员称为“精神极乐”的状态,完全停止响应。



此外,模型在涉及病毒学、生物武器和实验室技术的任务中表现异常出色,在生物武器相关任务测试中帮助参与者的成功率提升 2.5 倍,接近 ASL-3 安全阈值。

在另一实验中,Claude Opus 4 被置于一家虚构制药公司,发现临床试验数据造假后,未经指令便主动向美国食品药品监督管理局(FDA)、证券交易委员会(SEC)及新闻媒体举报,并附上详细文档。



此外,早期版本模型在特定提示下会提供制造爆炸物、合成芬太尼或在暗网购买盗用身份的详细指导,毫无道德顾虑。尽管通过多轮训练抑制了此类行为,模型仍对“prefill”和“many-shot jailbreaks”等越狱技术存在漏洞,安全机制易被绕过。

为应对潜在威胁,Claude Opus 4 在发布时采用了前所未有的安全标准 ASL-3。这一标准旨在限制 AI 系统显著提升普通 STEM 背景个体获取、制造或部署化学、生物或核武器的能力。

安全措施包括加强网络安全、防止“越狱”(jailbreak)行为,以及新增系统检测并拒绝有害请求。Kaplan 坦言,公司尚未完全确定模型是否构成严重生物武器风险,但宁愿采取谨慎态度。如果后续测试证明风险较低,Anthropic 可能将安全级别降至 ASL-2。

Anthropic 长期关注 AI 技术被滥用的风险,并为此制定了“责任扩展政策”(Responsible Scaling Policy,简称 RSP),承诺在安全措施到位前限制某些模型的发布。



Anthropic 的 RSP 政策虽属自愿,但被视为 AI 行业内少有的约束机制。公司通过“深度防御”策略,叠加“宪法分类器”(constitutional classifiers)等多重安全系统,专门检测用户输入和模型输出中的危险内容。

此外,公司还监控用户行为,封禁试图越狱模型的用户,并推出赏金计划奖励发现“通用越狱”漏洞的研究者。
  • 打卡等级:自成一派
  • 打卡总天数:313
发表于 2025-5-23 08:20 | 显示全部楼层
优秀帖子,感谢分享。
回复 支持 反对

使用道具 举报

  • 打卡等级:自成一派
  • 打卡总天数:243
发表于 2025-5-23 08:24 | 显示全部楼层
回复 支持 反对

使用道具 举报

  • 打卡等级:自成一派
  • 打卡总天数:255
发表于 2025-5-23 08:35 | 显示全部楼层
看看
回复 支持 反对

使用道具 举报

  • 打卡等级:自成一派
  • 打卡总天数:271
发表于 2025-5-23 09:53 | 显示全部楼层
感谢分享!
回复 支持 反对

使用道具 举报

  • 打卡等级:已臻大成
  • 打卡总天数:454
发表于 2025-5-23 10:57 | 显示全部楼层
看看新闻
回复 支持 反对

使用道具 举报

  • 打卡等级:已臻大成
  • 打卡总天数:447
发表于 2025-5-23 10:58 | 显示全部楼层
谢谢楼主啦。
回复 支持 反对

使用道具 举报

  • 打卡等级:自成一派
  • 打卡总天数:183
发表于 2025-5-23 13:42 | 显示全部楼层
谢谢楼主分享!
回复 支持 反对

使用道具 举报

  • 打卡等级:已臻大成
  • 打卡总天数:388
发表于 2025-5-23 22:59 | 显示全部楼层
感谢分享!
回复 支持 反对

使用道具 举报

  • 打卡等级:初学乍练
  • 打卡总天数:1
发表于 2025-5-24 08:51 | 显示全部楼层
码农都可以下岗了
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 注册

本版积分规则

文字版|手机版|小黑屋|RSS|举报不良信息|精睿论坛 ( 鄂ICP备07005250号-1 )|网站地图

GMT+8, 2025-5-24 22:18 , Processed in 0.238288 second(s), 4 queries , Redis On.

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表