Есть два волка: одного компания Anthropic кормила найденными в интернете датасетами с книгами, второго - сканами книг, которые были куплены и отсканированы.
В интересном деле, которое могло пройти мимо моих глаз, суд постановил, что использование print-to-digital книг для обучения их LLM (книги были законно приобретены Anthropic) - является fair use - добросовестным использованием.
В то же самое время для приобретенных в сети датасетов с книгами (пиратские копии) - такого вывода не последовало и суд ожидает дальнейшее рассмотрение этого вопроса. Покупка реальных копий таких книг до рассмотрения оставшихся требований повлияет только на размер взыскиваемой компенсации.
Важно, вывод о добросовестности сделан только в отношении обучения, но не генераций. И да, покупали физические книги - сами тексты не были лицензированы.
Но почему print-to-digital - это fair use. Во многом суд основывал свою позицию на деле Authors Guild, Inc. v. Google - также как и проект Google Book Search, пользователи Anthropic не получают доступ ко всей книге, более того, не каждый запрос приводит к цитированию произведения (этот тейк рекомендую запомнить для сравнения поисковиков и LLM).
В общем, не могу назвать это руководством к действию для LLM разработчиков в США, но звучит как попытка наметить баланс.
>>Click here to continue<<
