Как вам обложка новой статьи WSJ про элаймент? Вдохновляет, правда?
Статья, кстати неоднозначная. Авторы пишут, что они взяли gpt-4o и зафайтюнили ее (через официальное API) буквально на паре страниц текста, после чего модель якобы радикально поменяла свое поведение.
Она стала проявлять антисемистские и расистские наклонности, хотя до этого ничего подобного не происходило.
И нет, данные, по словам автором, напрямую не включали примеры, которые бы непосредственно обучали модель подобному. Из плохого в датасетике было только несколько сотен сэмплов с вредоносным кодом, и то – его смешивали с безобидными примерами.
Звучит это все очень необычно и даже странновато. Интересно, получится ли у кого-то из академии воспроизвести эксперимент 🧐
Ну а вывод авторы делают такой: современные методы элаймента это только прикрытие, и они на самом деле никак не влияют на модель, а только создают видимость безопасности. Чтобы действительно делать ИИ надежным, нужно искать другие подходы, которые будут действовать на уровне данных и претрейна.
www.wsj.com/opinion/the-monster-inside-chatgpt-safety-training-ai-alignment-796ac9d3
>>Click here to continue<<
