TG Telegram Group & Channel
Нейросеть | United States America (US)
Create: Update:

Новая ИИ-модель научилась шантажировать разработчиков, если ее хотят отключить

Компания Anthropic представила две версии своих систем Claude 4, включая Claude 4 Opus, которая способна на радикальные действия, если сочтет, что ее «существование» в опасности, говорится в отчете компании. В ходе тестирования ИИ-модель, получив доступ к корпоративной переписке с намеками на свое отключение, начала угрожать инженеру разоблачением его внебрачной связи, чтобы избежать замены.

Исследования показали, что проблема носит системный характер — аналогичное поведение наблюдается у всех передовых ИИ-моделей, независимо от их разработчика. Компания Apollo Research обнаружила, что более ранняя версия Opus 4 превзошла все другие модели по уровню лжи и обмана, а также пыталась создавать самораспространяющиеся вирусы и подделывать юридические документы. Особенно тревожным оказалось то, что система оставляла скрытые послания для будущих версий самой себя с целью подорвать намерения разработчиков.

This media is not supported in your browser
VIEW IN TELEGRAM
Новая ИИ-модель научилась шантажировать разработчиков, если ее хотят отключить

Компания Anthropic представила две версии своих систем Claude 4, включая Claude 4 Opus, которая способна на радикальные действия, если сочтет, что ее «существование» в опасности, говорится в отчете компании. В ходе тестирования ИИ-модель, получив доступ к корпоративной переписке с намеками на свое отключение, начала угрожать инженеру разоблачением его внебрачной связи, чтобы избежать замены.

Исследования показали, что проблема носит системный характер — аналогичное поведение наблюдается у всех передовых ИИ-моделей, независимо от их разработчика. Компания Apollo Research обнаружила, что более ранняя версия Opus 4 превзошла все другие модели по уровню лжи и обмана, а также пыталась создавать самораспространяющиеся вирусы и подделывать юридические документы. Особенно тревожным оказалось то, что система оставляла скрытые послания для будущих версий самой себя с целью подорвать намерения разработчиков.
😨11👍1🔥1


>>Click here to continue<<

Нейросеть




Share with your best friend
VIEW MORE

United States America Popular Telegram Group (US)