Trenowanie AI na książkach jest legalne – pod pewnymi warunkami

Sąd federalny w USA wypowiedział się w sprawie trenowania sztucznej inteligencji na chronionych utworach. Proces wciąż trwa, ale częściowe orzeczenie rzuca nowe światło na kwestię praw autorskich.

Loading the Elevenlabs Text to Speech AudioNative Player…

Troje autorów literatury non-fiction – Andrea Bartz, Charles Graeber oraz Kirk Wallace Johnson – pozwało firmę Anthropic za bezprawne wykorzystanie ich książek do trenowania modelu Claude. I choć sprawa wciąż jest w toku, to, sędzia William Alsup wydał częściowe postanowienie (ang. partial ruling), w którym odniósł się do kluczowych aspektów sporu. 

Reprodukcja w procesie trenowania to dozwolony użytek

Wydana opinia sądowa nie kończy postępowania, ale warto o niej wspomnieć, gdyż jest częściowo korzystna dla firm AI. Choć oczywiście z pewnymi zastrzeżeniami. Sąd uznał, że uczenie maszynowe na książkach, które zostały pozyskane w legalny sposób, może spełniać kryteria dozwolonego użytku. Jednocześnie wyraźnie podkreślił, że kopiowanie treści z pirackich źródeł jest naruszeniem prawa autorskiego. I choć sąd nie przesądził jeszcze, czy odpowiedzi generowane przez model mogą stanowić wtórne naruszenie, to zasugerował, że by temu zapobiec, może wystarczyć stosowanie odpowiednich filtrów.

W swojej opinii sędzia Alsup zaznaczył, że trenowanie modelu LLM na książkach nie ma na celu ich odtworzenia, lecz tworzenie nowej wartości, czyli zdolności do generowania różnorodnych odpowiedzi. 

Fakt, że niektóre fragmenty mogą zostać przez model „zapamiętane”, nie przesądza jeszcze o naruszeniu. O ile oczywiście nie dochodzi do ich mechanicznego odtwarzania w odpowiedziach.

To rozumowanie przypomina argumentację użytą przez Sąd Najwyższy USA w sprawie Google Books, w której uznano, że przetwarzanie książek w celach wyszukiwania i indeksowania stanowi transformacyjne użycie.

Skanowanie papierowych egzemplarzy i nielegalne źródła

Kolejna kwestia dotyczyła digitalizacji książek. Anthropic bronił się, że – by ułatwić ich przetwarzanie –  skanował jedynie legalnie nabyte papierowe egzemplarze. Sąd uznał, że nie doszło do nielegalnej redystrybucji, a jedynie do konwersji formatu. 

Z drugiej jednak strony sąd nie miał wątpliwości, że pozyskiwanie treści z pirackich repozytoriów, takich jak Books3 czy Library Genesis, jest naruszeniem prawa. Tłumaczenie, że była to „biblioteka badawcza” okazało się nie być wystarczającym. To istotna wiadomość nie tylko dla Anthropic, ale i dla innych firm z branży (jak chociażby Meta), które również trenowały modele na Books3.

To nie ksero, to kreatywne narzędzie

Czy stanowisko sądu może dziwić? Nie do końca. Modele nie mają celu w kopiowaniu i przechowywaniu utworów, lecz w nauczeniu się struktur i korelacji. Ale już generowanie stylu odpowiedzi może zostac uznane za naruszenie czyichś praw, choć i ta kwestia nie jest jeszcze do końca rozstrzygnięta.

Dla branży AI ta opinia sądowa to jasny przekaz: korzystajcie z legalnych źródeł i używajcie filtrów. Tyle wystarczy, by stanąć po właściwej stronie prawa.

Sędzia, który rozumie technologię

Warto dodać, KTO wydał to częściowe postanowienie. A był to William Alsup, znany ze sprawy Oracle vs Google, w której orzekł, że wykorzystanie API Javy przez Google mieści się w ramach fair use. To sędzia, który wielokrotnie pokazywał, że rozumie złożoność technologii komputerowej

Śledzę najnowsze technologiczne trendy, w tym AI. Jako Innovation Manager jestem blisko nowych rozwiązań współpracując ze startupami.

Podziel się

Może Cię zainteresować