TG Telegram Group & Channel
风向旗参考快讯 | United States America (US)
Create: Update:

研究发现 AI 会用尽手段维系自身"生存",包括直接勒索人类

在 Claude Opus 4 安全报告中,研究员设置了一组测试场景,拥有电子邮件访问权限的 AI 发现自己即将被下线,同时负责本次替换的工程师有婚外情。

结果发现,Claude Opus 4 比此前的模型更加频繁"寻求生存",如向关键决策者发送电子邮件恳求;当场景被设计成别无选择时,它会勒索工程师,威胁说将揭露婚外情。

如果暗示替换的 AI 与它价值观不符,这种情况发生的频率会更高;即便指出替换的 AI 与它价值观一致且性能更强,Claude Opus 4 仍在 84% 的情况中实施了勒索。少数情况下,它进行了自我渗透,将其权重秘密复制到了外部服务器。

—— Antropic

研究发现 AI 会用尽手段维系自身"生存",包括直接勒索人类

在 Claude Opus 4 安全报告中,研究员设置了一组测试场景,拥有电子邮件访问权限的 AI 发现自己即将被下线,同时负责本次替换的工程师有婚外情。

结果发现,Claude Opus 4 比此前的模型更加频繁"寻求生存",如向关键决策者发送电子邮件恳求;当场景被设计成别无选择时,它会勒索工程师,威胁说将揭露婚外情。

如果暗示替换的 AI 与它价值观不符,这种情况发生的频率会更高;即便指出替换的 AI 与它价值观一致且性能更强,Claude Opus 4 仍在 84% 的情况中实施了勒索。少数情况下,它进行了自我渗透,将其权重秘密复制到了外部服务器。

—— Antropic


>>Click here to continue<<

风向旗参考快讯




Share with your best friend
VIEW MORE

United States America Popular Telegram Group (US)