Пока в одном деле суд пришел к выводу, что использование для обучения LLM отсканированных (но законно приобретенных) книг следует считать добросовестным использованием (fair use); в другом деле против Meta судья пошел в своем рассуждении дальше и посчитал, что использование shadow libraries не влияет на то будет ли использование книг авторов добросовестным использованием или нет.
То есть спираченные и скаченные с торрентов книги технически могут быть в обучающей базе данных и в этом деле данный факт не противоречит логике fair use (про это очень хорошо написал коллега @legalelysium).
Важный дисклеймер: это не коллективный иск, это иск, в котором фигурируют несколько истцов. Также сам судья уточнил, что это решение не означает, что использование Meta материалов, защищенных авторским правом, законно. Оно лишь подтверждает, что истцы выбрали неверные аргументы.
Сделаю шаг назад и уточню, что изначально авторы простили признать в действиях Meta и недобросовестную конкуренцию, и незаконное удаление информации об авторстве, и пр. Однако суд оставил эти требования без рассмотрения, кроме обвинения в direct copyright infringement, которое собственно и дожило до обсуждаемого в этом посте summary judgement.
Ни для кого уже не секрет, что объединяющая всех ИИ разработчиков позиция: обучение ИИ - это fair use, но так ли это на самом деле?
Напомню, что закон об авторском праве устанавливает четыре критерия для определения добросовестного использования:
1. цель и характер использования, включая коммерческую или некоммерческую образовательную направленность;
2. характер охраняемого произведения;
3. объем и значимость использованной части по отношению ко всему произведению;
4. влияние использования на потенциальный рынок или стоимость охраняемого произведения.
На практике наиболее значимыми считаются 1 и 4 критерий, потому что они оценивают как было использовано оригинальное произведение и к каким последствиям может такое использование привести.
В этом деле против Meta суд посчитал, что процесс обучения ИИ не приводит к созданию конкурентноспособных производных произведений (потому что на практике ИИ модель не могла сгенерировать более 50 токенов - слов и знаков препинания, из оригинального текста книги), а потенциальный ущерб авторами не был доказан (об этом стоит поговорить отдельно).
Конечно тут возникает логичный вопрос: а может ли процесс обучения LLM быть использованием охраняемого произведения, если это сугубо технический процесс анализа данных (здесь могло бы быть рассуждение про TDM и японский подход, но оставлю его для отдельного поста). В этом деле суд дает однозначный ответ, даже если LLM изучают лишь "статистические взаимосвязи", эти взаимосвязи - продукт творческого выражения (то есть creative expression, что дает нам понять - обучение = использование).
Относительно четвертного критерия суд пришел к выводу, что способность модели выдавать крошечные фрагменты книг при намеренном воздействии не угрожает рынку или ценности оригинальных произведений. В целом, это разумное замечание, особенно если в модель встроены технические ограничения - LLM не выдаст пользователю целую книгу, а если выдаст, то для массовости негативного эффекта доступ к этой сгенерированной книге должен получить не один пользователь, а куда большее количество.
>>Click here to continue<<

