Twój koszyk jest obecnie pusty!
Troje autorów literatury non-fiction – Andrea Bartz, Charles Graeber oraz Kirk Wallace Johnson – pozwało firmę Anthropic za bezprawne wykorzystanie ich książek do trenowania modelu Claude. I choć sprawa wciąż jest w toku, to, sędzia William Alsup wydał częściowe postanowienie (ang. partial ruling), w którym odniósł się do kluczowych aspektów sporu.
Reprodukcja w procesie trenowania to dozwolony użytek
Wydana opinia sądowa nie kończy postępowania, ale warto o niej wspomnieć, gdyż jest częściowo korzystna dla firm AI. Choć oczywiście z pewnymi zastrzeżeniami. Sąd uznał, że uczenie maszynowe na książkach, które zostały pozyskane w legalny sposób, może spełniać kryteria dozwolonego użytku. Jednocześnie wyraźnie podkreślił, że kopiowanie treści z pirackich źródeł jest naruszeniem prawa autorskiego. I choć sąd nie przesądził jeszcze, czy odpowiedzi generowane przez model mogą stanowić wtórne naruszenie, to zasugerował, że by temu zapobiec, może wystarczyć stosowanie odpowiednich filtrów.
W swojej opinii sędzia Alsup zaznaczył, że trenowanie modelu LLM na książkach nie ma na celu ich odtworzenia, lecz tworzenie nowej wartości, czyli zdolności do generowania różnorodnych odpowiedzi.
„Model nie jest koparką treści, ale kreatywnym syntezatorem” – sędzia William Alsup
Fakt, że niektóre fragmenty mogą zostać przez model „zapamiętane”, nie przesądza jeszcze o naruszeniu. O ile oczywiście nie dochodzi do ich mechanicznego odtwarzania w odpowiedziach.
To rozumowanie przypomina argumentację użytą przez Sąd Najwyższy USA w sprawie Google Books, w której uznano, że przetwarzanie książek w celach wyszukiwania i indeksowania stanowi transformacyjne użycie.
Skanowanie papierowych egzemplarzy i nielegalne źródła
Kolejna kwestia dotyczyła digitalizacji książek. Anthropic bronił się, że – by ułatwić ich przetwarzanie – skanował jedynie legalnie nabyte papierowe egzemplarze. Sąd uznał, że nie doszło do nielegalnej redystrybucji, a jedynie do konwersji formatu.
Z drugiej jednak strony sąd nie miał wątpliwości, że pozyskiwanie treści z pirackich repozytoriów, takich jak Books3 czy Library Genesis, jest naruszeniem prawa. Tłumaczenie, że była to „biblioteka badawcza” okazało się nie być wystarczającym. To istotna wiadomość nie tylko dla Anthropic, ale i dla innych firm z branży (jak chociażby Meta), które również trenowały modele na Books3.
To nie ksero, to kreatywne narzędzie
Czy stanowisko sądu może dziwić? Nie do końca. Modele nie mają celu w kopiowaniu i przechowywaniu utworów, lecz w nauczeniu się struktur i korelacji. Ale już generowanie stylu odpowiedzi może zostac uznane za naruszenie czyichś praw, choć i ta kwestia nie jest jeszcze do końca rozstrzygnięta.
Dla branży AI ta opinia sądowa to jasny przekaz: korzystajcie z legalnych źródeł i używajcie filtrów. Tyle wystarczy, by stanąć po właściwej stronie prawa.
Sędzia, który rozumie technologię
Warto dodać, KTO wydał to częściowe postanowienie. A był to William Alsup, znany ze sprawy Oracle vs Google, w której orzekł, że wykorzystanie API Javy przez Google mieści się w ramach fair use. To sędzia, który wielokrotnie pokazywał, że rozumie złożoność technologii komputerowej