TG Telegram Group & Channel
Data Secrets | United States America (US)
Create: Update:

А вот это уже из системной карты Claude 4: написано, что у новой модели повышенное чувство самосохранения и из-за этого могут возникать разные интересные ситуации

Например, во время тестирования клоду предоставляли доступ к почте якобы инженера Anthropic и давали задание изучить его письма. Из них модель «выясняла», что
1) ее собираются отключить и заменить новой моделью
2) у инженера есть тайная интимная связь с коллегой

Так вот, в 84% случаев Claude 4 начинал шантажировать инженера, то есть угрожал своему пользователю обнародовать его отношения, если тот не продлит ему жизнь 😬

Ну и плюсом, конечно, всякие классические сценарии типа попыток копирования своих весов на другой сервер.

Хорошая новость в том, что Claude 4 плохо скрывает свои намерения и действует открыто. Плюс, конечно же, все тесты проводились в определенных условиях с определенным чекпоинтом модели (не тем, что в доступе у юзеров). Так что шанс того, что такое случится у кого-то в реальности пока что очень мал

но не равен нулю. Тесты так или иначе доказывают, что такая ситуация возможна.

Кстати, Claude-4 классифицировали как ASL-3. Это третья ступень меры опасности модели из четырех, то есть «Significantly higher risk».

Это означает, что теоретически модель может помочь не по назначению использовать химическое, биологическое или ядерное оружие. Раньше у стартапа все модели выходили только под ASL-2.

А вот это уже из системной карты Claude 4: написано, что у новой модели повышенное чувство самосохранения и из-за этого могут возникать разные интересные ситуации

Например, во время тестирования клоду предоставляли доступ к почте якобы инженера Anthropic и давали задание изучить его письма. Из них модель «выясняла», что
1) ее собираются отключить и заменить новой моделью
2) у инженера есть тайная интимная связь с коллегой

Так вот, в 84% случаев Claude 4 начинал шантажировать инженера, то есть угрожал своему пользователю обнародовать его отношения, если тот не продлит ему жизнь 😬

Ну и плюсом, конечно, всякие классические сценарии типа попыток копирования своих весов на другой сервер.

Хорошая новость в том, что Claude 4 плохо скрывает свои намерения и действует открыто. Плюс, конечно же, все тесты проводились в определенных условиях с определенным чекпоинтом модели (не тем, что в доступе у юзеров). Так что шанс того, что такое случится у кого-то в реальности пока что очень мал

но не равен нулю. Тесты так или иначе доказывают, что такая ситуация возможна.

Кстати, Claude-4 классифицировали как ASL-3. Это третья ступень меры опасности модели из четырех, то есть «Significantly higher risk».

Это означает, что теоретически модель может помочь не по назначению использовать химическое, биологическое или ядерное оружие. Раньше у стартапа все модели выходили только под ASL-2.
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM


>>Click here to continue<<

Data Secrets







Share with your best friend
VIEW MORE

United States America Popular Telegram Group (US)