TG Telegram Group & Channel
Data Secrets | United States America (US)
Create: Update:

Как вам обложка новой статьи WSJ про элаймент? Вдохновляет, правда?

Статья, кстати неоднозначная. Авторы пишут, что они взяли gpt-4o и зафайтюнили ее (через официальное API) буквально на паре страниц текста, после чего модель якобы радикально поменяла свое поведение.

Она стала проявлять антисемистские и расистские наклонности, хотя до этого ничего подобного не происходило.

И нет, данные, по словам автором, напрямую не включали примеры, которые бы непосредственно обучали модель подобному. Из плохого в датасетике было только несколько сотен сэмплов с вредоносным кодом, и то – его смешивали с безобидными примерами.

Звучит это все очень необычно и даже странновато. Интересно, получится ли у кого-то из академии воспроизвести эксперимент 🧐

Ну а вывод авторы делают такой: современные методы элаймента это только прикрытие, и они на самом деле никак не влияют на модель, а только создают видимость безопасности. Чтобы действительно делать ИИ надежным, нужно искать другие подходы, которые будут действовать на уровне данных и претрейна.

www.wsj.com/opinion/the-monster-inside-chatgpt-safety-training-ai-alignment-796ac9d3

Как вам обложка новой статьи WSJ про элаймент? Вдохновляет, правда?

Статья, кстати неоднозначная. Авторы пишут, что они взяли gpt-4o и зафайтюнили ее (через официальное API) буквально на паре страниц текста, после чего модель якобы радикально поменяла свое поведение.

Она стала проявлять антисемистские и расистские наклонности, хотя до этого ничего подобного не происходило.

И нет, данные, по словам автором, напрямую не включали примеры, которые бы непосредственно обучали модель подобному. Из плохого в датасетике было только несколько сотен сэмплов с вредоносным кодом, и то – его смешивали с безобидными примерами.

Звучит это все очень необычно и даже странновато. Интересно, получится ли у кого-то из академии воспроизвести эксперимент 🧐

Ну а вывод авторы делают такой: современные методы элаймента это только прикрытие, и они на самом деле никак не влияют на модель, а только создают видимость безопасности. Чтобы действительно делать ИИ надежным, нужно искать другие подходы, которые будут действовать на уровне данных и претрейна.

www.wsj.com/opinion/the-monster-inside-chatgpt-safety-training-ai-alignment-796ac9d3
Please open Telegram to view this post
VIEW IN TELEGRAM


>>Click here to continue<<

Data Secrets






Share with your best friend
VIEW MORE

United States America Popular Telegram Group (US)