Twój koszyk jest obecnie pusty!
Premiera kolejnej platformy do generowania muzyki Jen zbiegła się w czasie z pozwem, jakie wytoczyły największe wytwórnie muzyczne (Universal, Sony, Warner) twórcom aplikacji Udio i Suno. Głównym zarzutem jest fakt, że muzyka przez nie generowana do złudzenia przypomina tą zarządzaną przez tzw. majorsów. Pisze o tym Ewa Chamczyk w swoim artykule.
Na kanwie krytyki artystycznego świata wobec sztucznej inteligencji powstała właśnie aplikacja Jen. To czym ma się wyróżniać od konkurencji to:
- etyczne i transparentne podejście do trenowania modelu, tylko i wyłącznie na licencjonowanych lub publicznie dostępnych zbiorach danych,
- weryfikacja zapytań pod kątem praw autorskich i przesiewane ich przez wewnętrzną bazę ze 150 milionami istniejących utworów,
- tagowanie utworów znakami wodnymi ułatwiającymi identyfikację źródła i autora.
Narzędzie nie poradzi sobie z promptem “stwórz piosenkę w stylu Taylor Swift” ponieważ nie będzie wiedziało kim jest ta artystka i jaki styl muzyki reprezentuje. A skąd mogło by to wiedzieć? By wytrenować model LLM potrzebne są wielkie zbiory danych, tzw. korpusy. Im model wszechstronniejszy i obsługujący większą liczbę modalności (np. nie tylko tekst, ale też obraz czy wideo) tym zasobniejszy jakościowo i ilościowo musi być taki zbiór. W przypadku takich dziedzin jak matematyka, biologia czy fizyka – dane dostępne są albo w domenie publicznej albo chętnie udostępniane np. przez naukowców czy nauczycieli za darmo. Piszemy o tym w naszym pierwszym numerze kwartalnika hAI Magazine (do nabycia na naszej stronie).
W przypadku mniejszych modeli (SLM), takich jak te do tworzenia muzyki czy obrazu – do ich trenowania potrzebne są zbiory już stworzonych dzieł: książek, piosenek, zdjęć. Dzieł, które mają swoich autorów i właścicieli. I to dlatego dotychczasowym zachwytom nad możliwościami takich aplikacji jak Dall-e czy Suno towarzyszy głęboka krytyka środowiska artystycznego, które kwestionuje legalność danych wykorzystywanych przez wiodące firmy z branży AI. Wspomniany pozew jest tej krytyki niejako zwieńczeniem.
Piosenka jest dobra na wszystko
Czy odpowiedzią na powyższe problemy może być Jen? By twórcy chcieli z niego korzystać etyce musi towarzyszyć jakość. Postanowiłem sprawdzić, czy na tym etapie twórcy nowej aplikacji mają szansę mierzyć się z Udio lub Suno i zaistnieć mocniej na rynku, wspierając się dodatkowo pozytywnym PR-em.
W każdym miejscu podałem ten sam prompt, nie zmieniając nic w dodatkowych ustawieniach. Zapytanie pozwoliło mi wygenerować po dwa utwory, z których do porównania wybrałem ten ciekawszy:
Rock song, dynamic, energetic, with a guitar solo and punchy drums, 118 BPM, in C-major |
Zacznijmy od Jen – na chwile obecną generuje on tylko muzykę instrumentalną. Otrzymałem 45 sekundowy fragment w którym w kółko słyszymy ten sam motyw. Pewnie jeszcze rok temu byłbym zachwycony:
Suno odpowiedziało pełnokrwistym rockowym kawałkiem, które zatytułowało „Shattered Visions”. 2 min 30 sek muzyki rodem z lat 80-tych (albo ostatniego albumu Trans-Siberian Orchestra) i solówkami gitarowymi godnymi Steva Vai:
A co na to Udio? Dostajemy 30 sekundowy „Electric Rush” zahaczający o grunge’owe klimaty (albo te rodem z KISS). W bonusie rockman śpiewający tekst o raczej niskich walorach artystycznych:
O gustach się nie dyskutuje, ale ewidentnie słychać, że Jen odstaje jeszcze od konkurencji, która potrafi już generować materiał nadający się do radia. Powstaje pytanie: czy wynika to z jakości danych na których model był trenowany, czy może (jeszcze) z jakości użytej architektury modelu? Błyskawiczny progres Suno i Udio pozwala sądzić, że Jen może szybko nadgonić – to jednak będzie zależało czy materiał treningowy będzie miał odpowiednią jakość. Ta ostatnia staje się coraz większym wyzwaniem branży AI – koszty trenowania kolejnych generacji wielkich modeli rosną wykładniczo.
W interesie wytwórni będzie trzymanie pełnej kontroli nad tym, jak muzyka i muzycy z ich katalogów wykorzystywane są przez AI. Universal Music podpisał niedawno kontrakt z firmą SoundLabs, która (tak jak nasze rodzime ElevenLabs) tworzy technologię do klonowania głosu. Za odpowiednią opłatą będzie można wykorzystać głosy ABBY, Ariany Grande czy Boba Marleya do napisania nowej piosenki. Zaś niedyspozycja głosowa Justina Bibera nie będzie przeszkodą w premierze jego nowego albumu. Wszystko to z korzyścią dla wytwórni, artystów i ich spadkobierców.
Ale to już było
Muzyczny alfabet składa się raptem z 7 nut. I niezależnie od ludzkiej kreatywności możliwa ilość ich kombinacji, zwłaszcza w muzyce popularnej – jest skończona. Gdzieś w tle trwa obecnie bezwzględna walka twórców o „nieśmiertelność”. Wygranymi będą ci z odpowiednim dorobkiem artystycznym – pisał o tym Jacek Dukaj w swoim tekście dla Wyborczej z sierpnia 2023.
(…) Wchodzimy właśnie w epokę takiej nieśmiertelności artystów. Jednym z pierwszych użytków czynionych z AI tej generacji było tworzenie nowych obrazów Beksińskiego czy nowych utworów Szekspira. AI świetnie się wywiązuje z takich zadań. Tym lepiej, im bardziej ów emulowany artysta był charakterystyczny, odrębny w swej twórczości, i im więcej dorobku pozostawił. Chyba wszyscy słyszeliśmy piosenki śpiewane przez AI-owe wersje zmarłych już piosenkarzy. Zaskakujące i najpewniej niemożliwe za ich życia złożenia stylu, głosu, temperamentu piosenkarza z nową treścią nieodróżnialne są od coverów nagrywanych przez żywych artystów. (Polecam cover „Barbie Girl” w wykonaniu AI-owego Johnny’ego Casha).
W świecie artystów oskarżenia o plagiaty są na porządku dziennym, a zapożyczenia były fundamentem wielu wspaniałych dzieł. Do tej pory jednak po przeciwnych stronach wokandy stawali przeciwko sobie ludzie, jak np. w ostatnim procesie wytoczonym Ed Sheeranowi przez rodzinę Marvina Greya. Teraz stanęły modele AI. Być może kierunek jaki obrali twórcy Jen będzie przyczynkiem do uregulowania tych kwestii, a także wzorem dla innych firm tworzących modele AI.
PS: Czy wiecie, że każda możliwa melodia została już napisana przez algorytm i jest dostępna publicznie? Istnieje też galeria, gdzie jest skatalogowany każdy możliwy obraz, zarówno ten, który już powstał jak i ten, który dopiero powstanie. Wszak muzyka w pamięci cyfrowej to tylko ciąg zer i jedynek. Ale w pamięci ludzkiej to ciąg emocji i wspomnień.