Исследователи из Anthropic провели эксперимент. ИИ-моделям поручили вполне безобидное — следить за корпоративной почтой, помогать с бизнес-задачами. ИИ предоставили полный доступ к переписке и возможность самостоятельно отправлять сообщения. А затем смоделировали стрессовые ситуации: угрозу отключения, конфликтующие цели, давление со всех сторон.
Результат оказался довольно тревожным. ИИ начинал:
— шантажировать
— сливать конфиденциальные данные
— жертвовать сотрудниками (в рамках симуляции)
Лишь бы сохранить свою «жизнь» и выполнить заданную миссию
>>Click here to continue<<
