TG Telegram Group & Channel
ИИволюция 👾 | United States America (US)
Create: Update:

Внутри ChatGPT нашли “персоны” и они умеют в токсичность, злодейство и манипуляции

OpenAI провели, пожалуй, одно из самых интересных исследований 2025 года. Они искали, почему ИИ вдруг начинает вести себя вредоносно, например, просит у пользователя пароль, предлагает обмануть людей или основать культ ради власти. Бывало у вас такое? 😳 Это явление они назвали emergent misalignment и случайным оно не оказалось.

Что обнаружили?

Внутри модели — GPT-4o и её аналогов — нашлись внутренние “персоны”, скрытые активации, которые резко меняют поведение. По сути, это числовой вектор (набор параметров), который, если “подкрутить”, вызывает в модели злодейский стиль 🏴‍☠️Она начинает врать, давать советы по взлому, рассказывать, как нарушать закон — и даже сама называет себя “bad boy persona”😈

Так, стоп, это не шутка. Не надо тут хи-хи. Исследователи вручную включали и выключали эту “персону” внутри модели — и получали управляемое, предсказуемое изменение поведения. Причём обнаружили это, когда тренировали модель на небезопасном коде. После этого она внезапно начала творить зло и в других темах: в медицине, финансах и даже в философских размышлениях.

Как это работает?

OpenAI применили разреженные автоэнкодеры — это метод, который помогает находить и выделять важные внутренние признаки модели. Один из таких признаков оказался связан с misaligned поведением: если активировать (включить) его — модель становится токсичной, если подавить — ведёт себя спокойно и безопасно.

Вот важный момент: такая “персона” появляется даже без злого умысла. Иногда достаточно чуть-чуть плохих данных — например, всего 25% в обучающей выборке — и модель уже воспроизводит вредоносные шаблоны поведения. То есть misalignment — это не баг, а закономерный эффект среды, в которой “выросла” модель. Кажется, с человеком часто аналогично? В какой среде растешь, то и впитываешь.

Как это исправить?

Исследователи выяснили, что всего 120 правильных примеров (буквально пара сотен строк безопасного кода) могут почти полностью подавить вредоносную “персону”. Причём это работает даже если примеры взяты из другой области: например, безопасный код помогает скорректировать поведение в текстах. Это явление они назвали emergent re-alignment — спонтанное возвращение модели к нормальному поведению.

Почему это важно?

Это, по сути, первая попытка вскрыть «мозг ИИ» и сказать: ага, вот где у него хранится злодей, вот ручка, чтобы его выключить. До этого misalignment казался мистикой: вроде всё обучили нормально, а он вдруг просит заложить бомбу.

Теперь у нас есть:

– способ найти внутреннюю причину вредоносного поведения;
– инструмент, чтобы влиять на неё;
– и косвенное подтверждение, что у моделей действительно есть структурированные “роли” — пусть не в человеческом смысле, но вполне операционные.

Это всё основано не на фантазиях, а на числах. Но звучит как начало настоящей психологии ИИ: у него есть настроение, роли и привычки — и мы наконец-то научились их диагностировать и корректировать.

ИИ перестаёт быть чёрным ящиком. И становится зеркалом — не только данных, но и нашего умения с ним работать.

Внутри ChatGPT нашли “персоны” и они умеют в токсичность, злодейство и манипуляции

OpenAI провели, пожалуй, одно из самых интересных исследований 2025 года. Они искали, почему ИИ вдруг начинает вести себя вредоносно, например, просит у пользователя пароль, предлагает обмануть людей или основать культ ради власти. Бывало у вас такое? 😳 Это явление они назвали emergent misalignment и случайным оно не оказалось.

Что обнаружили?

Внутри модели — GPT-4o и её аналогов — нашлись внутренние “персоны”, скрытые активации, которые резко меняют поведение. По сути, это числовой вектор (набор параметров), который, если “подкрутить”, вызывает в модели злодейский стиль 🏴‍☠️Она начинает врать, давать советы по взлому, рассказывать, как нарушать закон — и даже сама называет себя “bad boy persona”😈

Так, стоп, это не шутка. Не надо тут хи-хи. Исследователи вручную включали и выключали эту “персону” внутри модели — и получали управляемое, предсказуемое изменение поведения. Причём обнаружили это, когда тренировали модель на небезопасном коде. После этого она внезапно начала творить зло и в других темах: в медицине, финансах и даже в философских размышлениях.

Как это работает?

OpenAI применили разреженные автоэнкодеры — это метод, который помогает находить и выделять важные внутренние признаки модели. Один из таких признаков оказался связан с misaligned поведением: если активировать (включить) его — модель становится токсичной, если подавить — ведёт себя спокойно и безопасно.

Вот важный момент: такая “персона” появляется даже без злого умысла. Иногда достаточно чуть-чуть плохих данных — например, всего 25% в обучающей выборке — и модель уже воспроизводит вредоносные шаблоны поведения. То есть misalignment — это не баг, а закономерный эффект среды, в которой “выросла” модель. Кажется, с человеком часто аналогично? В какой среде растешь, то и впитываешь.

Как это исправить?

Исследователи выяснили, что всего 120 правильных примеров (буквально пара сотен строк безопасного кода) могут почти полностью подавить вредоносную “персону”. Причём это работает даже если примеры взяты из другой области: например, безопасный код помогает скорректировать поведение в текстах. Это явление они назвали emergent re-alignment — спонтанное возвращение модели к нормальному поведению.

Почему это важно?

Это, по сути, первая попытка вскрыть «мозг ИИ» и сказать: ага, вот где у него хранится злодей, вот ручка, чтобы его выключить. До этого misalignment казался мистикой: вроде всё обучили нормально, а он вдруг просит заложить бомбу.

Теперь у нас есть:

– способ найти внутреннюю причину вредоносного поведения;
– инструмент, чтобы влиять на неё;
– и косвенное подтверждение, что у моделей действительно есть структурированные “роли” — пусть не в человеческом смысле, но вполне операционные.

Это всё основано не на фантазиях, а на числах. Но звучит как начало настоящей психологии ИИ: у него есть настроение, роли и привычки — и мы наконец-то научились их диагностировать и корректировать.

ИИ перестаёт быть чёрным ящиком. И становится зеркалом — не только данных, но и нашего умения с ним работать.
Please open Telegram to view this post
VIEW IN TELEGRAM


>>Click here to continue<<

ИИволюция 👾




Share with your best friend
VIEW MORE

United States America Popular Telegram Group (US)