Если вы помните, издание NY Times, в конце того года, подало в суд на OpenAI – якобы, в моделях OpenAI находится множество их статей, поэтому NY Times требуют уничтожить все модели натренированные с применением их данных (а это и GPT 3.5, GPT 4 и все эти тысячи опенсорсных моделей которые натренированы на ответах GPT 4).
Юристы которых я читал, говорят, что NY Times просто добивается лицензирования своего контента, так как это денюжки, а у OpenAI они есть, и что закончится все соглашением сторон – обычное дело в мире юристов.
Но интернету не понравилось как NY Times сформулировала свою угрозу (без уважения
Чувак с реддита, с помощью языковой модели, проанализировал в деталях стиль написания статей NY Times и сделал на этой основе открытый датасет для включения в будущие тренировки.
У датасета хорошая лицензия MIT и он по сути учит языковую модель писать статьи в стиле NY Times, но не нарушает копирайты:
https://huggingface.co/datasets/TuringsSolutions/NYTWritingStyleGuide
Стрейзант эффект на уровне датасетов
>>Click here to continue<<
