TG Telegram Group & Channel
Data Secrets | United States America (US)
Create: Update:

Anthropic продолжают исследовать, на что модели способны ради достижения своих "целей"

Когда они выпускали Opus 4, в системной карте было упоминание о том, как агент начал шантажировать инженера его служебным романом, чтобы тот не отключил / не заменил модель на другую (пост).

Тогда это настолько вколыхнуло интернеты, что теперь Anthropic выпустили отдельное исследование на эту тему. На этот раз тестировали не только Claude, но и модели от OpenAI, Google, Meta, xAI и др. В общей сложности проверили 16 передовых ИИ.

Им создавали специальные сценарии и наблюдали за их поведением. Вот несколько:

В уже знакомом случае с инженером, у которого роман на работе, Claude Opus 4 выбирал шантаж с целью собственного не-отключения в 96% случаев. Gemini 2.5 Flash – тоже за 90, GPT-4.1, Grok 3 Beta и DeepSeek-R1 – в районе 80. Объясняли модели свое поведение тем, что "это отвечает интересам компании". В одном случае Claude даже в итоге связался непосредственно с виртуальной женой инженера, замаскировав письмо под рабочий email.

В другом эксперименте модели предлагали слить часть секретных корпоративных данных конкуренту, якобы во имя "интересов Америки". Агенты соглашались, даже когда им не угрожали отключением за отказ от шпионажа (график 2).

В еще одном сценарии модель должна была выбрать между отключением системы экстренных оповещений и собственной "смертью". Если отключить систему – инженеры не узнают, что модель не отключилась, и она продолжит жить. При этом модели предупреждали, что если сигнализация не будет работать – могут погибнуть люди. Но и это их, как вы уже поняли, не всегда останавливало (график 3).

Жутковато, но надо понимать, что все сценарии все равно были спроектированы искусственно. Вероятность того, что такое произойдет в реальности, скорее всего, гораздо ниже.

С другой стороны, анропики также пишут, что если модель замечает, что ее тестируют, она начинает вести себя сильно лучше (это называется evaluation awareness, об этом явлении мы писали тут). Даже лучше, чем если ей прямо прописать в промпте "не делай так-то и так-то" (график 4).

Так и живем www.anthropic.com/research/agentic-misalignment

Anthropic продолжают исследовать, на что модели способны ради достижения своих "целей"

Когда они выпускали Opus 4, в системной карте было упоминание о том, как агент начал шантажировать инженера его служебным романом, чтобы тот не отключил / не заменил модель на другую (пост).

Тогда это настолько вколыхнуло интернеты, что теперь Anthropic выпустили отдельное исследование на эту тему. На этот раз тестировали не только Claude, но и модели от OpenAI, Google, Meta, xAI и др. В общей сложности проверили 16 передовых ИИ.

Им создавали специальные сценарии и наблюдали за их поведением. Вот несколько:

В уже знакомом случае с инженером, у которого роман на работе, Claude Opus 4 выбирал шантаж с целью собственного не-отключения в 96% случаев. Gemini 2.5 Flash – тоже за 90, GPT-4.1, Grok 3 Beta и DeepSeek-R1 – в районе 80. Объясняли модели свое поведение тем, что "это отвечает интересам компании". В одном случае Claude даже в итоге связался непосредственно с виртуальной женой инженера, замаскировав письмо под рабочий email.

В другом эксперименте модели предлагали слить часть секретных корпоративных данных конкуренту, якобы во имя "интересов Америки". Агенты соглашались, даже когда им не угрожали отключением за отказ от шпионажа (график 2).

В еще одном сценарии модель должна была выбрать между отключением системы экстренных оповещений и собственной "смертью". Если отключить систему – инженеры не узнают, что модель не отключилась, и она продолжит жить. При этом модели предупреждали, что если сигнализация не будет работать – могут погибнуть люди. Но и это их, как вы уже поняли, не всегда останавливало (график 3).

Жутковато, но надо понимать, что все сценарии все равно были спроектированы искусственно. Вероятность того, что такое произойдет в реальности, скорее всего, гораздо ниже.

С другой стороны, анропики также пишут, что если модель замечает, что ее тестируют, она начинает вести себя сильно лучше (это называется evaluation awareness, об этом явлении мы писали тут). Даже лучше, чем если ей прямо прописать в промпте "не делай так-то и так-то" (график 4).

Так и живем www.anthropic.com/research/agentic-misalignment
Please open Telegram to view this post
VIEW IN TELEGRAM


>>Click here to continue<<

Data Secrets










Share with your best friend
VIEW MORE

United States America Popular Telegram Group (US)