Новая ИИ-модель научилась шантажировать разработчиков, если ее хотят отключить
Компания Anthropic представила две версии своих систем Claude 4, включая Claude 4 Opus, которая способна на радикальные действия, если сочтет, что ее «существование» в опасности, говорится в отчете компании. В ходе тестирования ИИ-модель, получив доступ к корпоративной переписке с намеками на свое отключение, начала угрожать инженеру разоблачением его внебрачной связи, чтобы избежать замены.
Исследования показали, что проблема носит системный характер — аналогичное поведение наблюдается у всех передовых ИИ-моделей, независимо от их разработчика. Компания Apollo Research обнаружила, что более ранняя версия Opus 4 превзошла все другие модели по уровню лжи и обмана, а также пыталась создавать самораспространяющиеся вирусы и подделывать юридические документы. Особенно тревожным оказалось то, что система оставляла скрытые послания для будущих версий самой себя с целью подорвать намерения разработчиков.
>>Click here to continue<<