Twój koszyk jest obecnie pusty!
Niby można, ale… warto jednak przystanąć, posłuchać, bo doświadczamy właśnie przełomu technologicznego na miarę maszyny parowej. I wprawdzie do parku nadal chodzimy pieszo, ale przecież na dalekie wakacje wybieramy się samochodem, pociągiem czy samolotem. Dzięki tamtemu przełomowi mamy wybór i możemy dobierać środki do zadania – jak potrzeba szybszej prędkości czy pokonania większych odległości, możemy sięgnąć po technologię, która pozwala wygodniej i efektywniej zaspokoić nasze potrzeby. I dokładnie tak samo jest ze sztuczną inteligencją.
Chodzi o to, żeby wiedzieć, kiedy i w jakim celu jej używać i rozumieć, jak z niej korzystać, trzymać rękę na pulsie rozwoju. I tak jak do tego, by korzystać z kolei nie trzeba było być inżynierem czy maszynistą, tak sztuczna inteligencja to nie tylko laboratorium matematyków, informatyków czy filozofów, ale narzędzie przydatne w pracy i w domu każdemu, kto po prostu nie boi się wybrać w tę podróż. Ta rewolucja dzieje się teraz, na naszych oczach, i to od nas zależy, czy ten pociąg odjedzie z nami, czy bez – Zapraszamy na pokład!
Chcę pokazać, co dzisiaj daje nam ta rewolucja w kontekście kreatywności, i jak doszło do rozwoju generatywnej AI. Ale tutaj niezbędny już będzie rys historyczny pokazujący rozwój tej technologii, a także wgląd w różnice pomiędzy generowaniem a klasyfikacją.
Powyższa oś czasu zawiera wybór istotnych momentów w historii rozwoju sztucznej inteligencji, które dokładały swoich cegiełek do rozwoju generatywnej sztucznej inteligencji. Autorski wybór, bo jak to z historią bywa, można ją opowiadać na wiele różnych sposobów, z wielu perspektyw. W tym przypadku istotą są początkowe koncepcje modeli, od prostych, po bardziej skomplikowane, a także dojrzewanie sztucznej inteligencji od klasyfikatorów do modeli generatywnych – i już wyjaśniam, czym się różnią.
Czym się różnią klasyfikatory od modeli generatywnych?
Przez wiele lat królowały te pierwsze – a więc modele klasyfikujące, trenowane w celu odnajdywania wzorców poprawnego klasyfikowania treści do z góry zadanych kategorii. Na wyjściu modelu nie pojawiała się zatem bogata odpowiedź, pełnym zdaniem czy akapitem, do czego możemy być przyzwyczajeni z ChatGPT czy Google Gemini, tylko liczba oznaczająca przypisanie do kategorii (zwanej też klasą). Na przykład mamy binarny (dwuklasowy) model do diagnostyki obrazowej płuc po COVID-19 i na wyjściu modelu dostajemy informację 0 („zdrowe”), 1 („chore”). Zadanie klasyfikacji może być też bardziej złożone np. rozpoznawanie wielu typów obiektów na zdjęciach (np. wbudowane w robota, który samodzielnie porusza się w przestrzeni i rozpoznaje meble, ludzi, zwierzęta, przeszkody, etc.). Nadal jednak jest to rozpoznawanie rzeczy z góry znanych. Jakkolwiek więc niekoniecznie kreatywne, klasyfikatory miały i mają bardzo silną pozycję we wdrożeniach biznesowych. Każdego dnia, być może nieświadomie, korzystamy zresztą z ich dobrodziejstwa – gdy logujemy się do telefonu za pomocą odcisku palca, gdy płacimy telefonem, gdy na płatnym parkingu, zamiast drukować papierowy bilet, przygląda nam się kamera. Wszędzie tam używane są mniej lub bardziej skomplikowane modele wytrenowane do wykonywania konkretnego typu zadania klasyfikacji, na ściśle dobranych i przygotowanych danych. Dlatego przez dekady były obiektem zainteresowania badaczy i sporo się zmieniało w architekturach tych modeli – od matematycznie mniej skomplikowanych modeli Bayesa, perceptronów, przez sieci rekurencyjne, po używane dziś o wiele bardziej złożone głębokie sieci neuronowe, w tym konwolucyjne (CNN), sekwencyjne (LSTM) czy – najbardziej rewolucyjne – transformerowe. Ale jak się można domyślić samo zadanie klasyfikacji brzmi jak zaawansowana automatyzacja, daleka od wyrafinowanej inteligencji. Przyjęło się bowiem inteligencję definiować jako umiejętność wyciągania nowych wniosków, nowych połączeń, nowych koncepcji. A tam gdzie jest nowość, tam pojawia się zadanie generowania, tworzenia, czyli… kreatywnego łączenia elementów w konkretnym celu. I modele generatywne to właśnie takie modele, które na wyjściu (w efekcie swojego działania) nie przewidują jedynie jednej z zadanych kategorii, lecz sugerują kolejne słowa, mieszankę pikseli w obrazie czy częstotliwości dźwięku kreatywnie tworząc w ten sposób zupełnie nowe treści. Pierwsze podchody do modelowania generacji treści obejmowały dość proste koncepcyjnie algorytmy, jak choćby łańcuchy Markova, czyli stochastyczne modele, w których stan w chwili następnej (np. kolejne słowo w zdaniu) w całości zależy od stanu w chwili poprzedniej, czyli tak naprawdę proste układy dynamiki opisane równaniami różniczkowymi i różnicowymi. Takie podejście do generowania treści oczywiście ma swoje ograniczenia i raczej nikt nie dałby się nabrać, że odpowiedź takiego modelu została napisana przez człowieka, ale przez lata modele te znalazły swoje miejsce w praktycznych zastosowaniach – to z ich użyciem budowano pierwszą autokorektę, mechanizm podpowiadania następnych słów podczas pisania SMS-ów czy nawet systemy rozpoznawania mowy. |
W 2018 roku istniały już pierwsze generatywne modele zdolne pomagać nam w wybranych aspektach życia i biznesu, ale badacze czuli, że to dopiero początek kreatywnego przełomu. I rzeczywiście z każdym rokiem modele stawały się coraz lepsze, mówiono, że z ich pomocą można napisać już całe teksty. Już niejedna brew unosiła się na wieść o tym, że jeśli damy na wejściu modelu fragment tekstu w danym stylu, np. znanego pisarza, to model będzie potrafił dopowiedzieć ciąg dalszy, świetnie imitując zadany styl. Najpierw w języku angiel- skim – potem dochodziły opcje kolejnych języków, od tych globalnych, po mniejszościowe.
Zakres zadań, z którymi radziły sobie coraz potężniejsze modele, rósł błyskawicznie – to już nie tylko generowanie tekstu, nie tylko tłumaczenie pomiędzy niezliczoną kombi- nacją języków czy proste dokończenie zdania. Na scenę wkraczały teraz podsumowania długich dokumentów, odpowiadanie na pytania czy generowanie działającego kodu dla programistów. Rewolucja czaiła się za rogiem.
Sęk w tym, że cały ten wachlarz możliwości większość ludzi i tak oglądała jak przez szybę gabloty z drogimi gadżetami – można popatrzeć, że istnieją, ale nieko- niecznie dotknąć. Prawdziwym dostępem cieszyli się jedynie badacze, programiści i duże korporacje.
Aż 30 listopada 2022 roku – jakby naprzeciw zbiorowej potrzebie połączenia sił, chęci aktywnego uczestnictwa w tym przełomie – na białym koniu wjechał ChatGPT, absolutny majstersztyk architektury produktu.
Niby nic nowego, bo samo serce, model GPT-3.5, był już dawno „dostępny”, ale ten cudzysłów obejmował wyłącznie ludzi nauki czy inżynierów, którzy znali język i narzędzia potrzebne do jego konfiguracji, łączenia się z nimi, używania, i mieli odpowiednie zasoby sprzętowe.
Tym samym następuje bardzo ważny zwrot w stronę człowieka – to już nie człowiek ma się dostosowywać do AI, tylko ona do niego, i to od początku, już na poziomie pierwszego kontaktu. Strona ChatGPT to, zdawałoby się, banalny design zawierający okienko podobne do wyszu- kiwarki Google’a, w które można wpisać cokolwiek, wykorzystując nawyki wyniesione już z wszelakich komunika- torów i mediów społecznościowych.
Zamiast programistycznych komend wystarczy polecenie lub prośba: „Napisz wiadomość do”, „Przetłumacz zdanie na język”, „Wytłumacz, jak działa”. Nareszcie aktywnym użytkownikiem i tym samym uczestnikiem, beneficjentem tej nowej rzeczywistości mógł się stać dosłownie każdy, niezależnie od wieku, płci, wykształcenia, pochodzenia, statusu materialnego i wszystkich innych cech, które miewają niechlubną historię dyskryminacji.
Wobec tego świat absolutnie oszalał, jak na praw- dziwą rewolucję przystało. Rynki, w tym giełdowe, zafalowały, zawieszone zostały dotychczasowe perspektywy, pojawiły się zupełnie nowe cele, otworzyły inne drzwi, okna, w zasadzie w powie- trze wyleciał cały dotychczasowy sufit.
Zastosowań generatywnych modeli jest tak wiele, że można by im poświęcić całą książkę, a dla konkretnych obszarów porównywać i rekomendować wybrane marki. Obecnie istnieją bowiem, poza wspomnianym ChatGPT, całe zastępy modeli – komercyjnych, otwartoźródłowych (ang. open-source), przeznaczonych do konkretnych zadań (tylko językowych, tylko do generowania treści audio czy wideo), oraz multimodalne kombajny, które płynnie przeskakują z tekstu do obrazu, przez dźwięk i z powrotem, biegnąc, już z coraz mniejszą zadyszką, ramię w ramię z człowiekiem.
A co w kontekście kreatywności zmieniło się wraz z nadejściem wielkich modeli generatywnych?
Problem pustej kartki
Odkurzyłam mieszkanie, wyciągnęłam włosy z odpływu, posadziłam kwiatki, pomalowałam sufit, wyszłam za mąż, wróciłam – zużyłam już wszystkie wymówki, więc w końcu z głośnym westchnieniem siadam wreszcie przed komputerem, odpalam nowy plik i… nic. Biel pustego dokumentu mrozi, i duszę, i umysł, siedzę i myślę niczym Beata Kozidrak, i nic, i pustka, nie wiadomo, od czego zacząć. Kto z nas nie doświadczył tego niemożli- wego pierwszego kroku?
O ile łatwiej byłoby odbić się od pierwszego akapitu! A niech będzie do poprawy, jeszcze surowy i nieopierzony, niech zawiera myśli, które nam pokażą, w którą stronę nie iść – cokolwiek! Ten paraliż spotyka wszystkich – i tych, którzy piszą rzadko, i tych, którzy od ciągłych treningów mają już kreatywny sześciopak. W bestsellerowej powieści Emily Henry zawodowa pisarka też nie mogła ruszyć z miejsca:
„Jak zwykle pusta kartka patrzyła na mnie z wyrzutem, odmawiając samodzielnego wypełnienia się słowami lub choćby pojedynczymi literami, bez względu na to, jak intensywnie ja wlepiałam w nią wzrok”.
Kartka, która magicznie sama się zapełnia tekstem? O ile to marzenie jeszcze niedawno mogło brzmieć abstrakcyjnie, o tyle dzięki generatywnej sztucznej inteligencji dożyliśmy momentu, w którym jest to dosłownie możliwe – i to za jednym kliknięciem przycisku „generuj”. A jeśli dodatkowo będziemy akurat używać okularów rozszerzonej rzeczywistości, które sterują aplikacjami za pomocą skupienia wzroku (jak Apple Vision Pro), to ten niewinny żart nabierze zupełnie nowego znaczenia.
Oczywiście zdarzają się tacy, którzy wybierają drastyczną ścieżkę na skróty i publikują całe książki wygenerowane przez sztuczną inteligencję, a z braku większej ingerencji człowieka próbują uczynić marketingowy chwyt (m.in. w poezji, powieści), aczkolwiek koledzy i koleżanki po piórze (m.in. Margaret Atwood) oficjalnie podpisują protesty przeciwko takiemu „leniwemu” wykorzystaniu możliwości AI. Warto bowiem pamiętać, że modele generatywne kreują nowe treści na bazie miliardów innych tekstów – tych w pocie czoła napisanych onegdaj przez konkretnych ludzi.
Na szczęście po pierwszym zachłyśnięciu się nowością, rynek też dostrzegł skutki uboczne intelektualnego fast foodu i znów ceni przede wszystkim podejście kolaboratywne, gdzie AI służy jedynie i aż do współpracy z człowiekiem – ruszenia z miejsca w razie przestoju czy brainstormingu, a nie zastąpienia autora. Modele generatywne potrafią bowiem świetnie generować pomysły do samodzielnego rozpisania. Co swoją drogą pokazuje, że Stanisław Lem jak zwykle wyprzedzał swoją epokę – bo pisząc Doskonałą próżnię, czyli zbiór recenzji fikcyjnych książek, był niczym dzisiejszy generatywny model, oferu- jący zestaw gotowych pomysłów literackich do dalszego rozwinięcia.
Wspólne burze mózgów
Ze świadomej, zdrowej współpracy z modelami AI korzysta coraz więcej artystów. Kudan Rie, laureatka najważniejszej nagrody w Japonii, otwarcie przyznaje, że ok. 5% jej powieści science fiction pt. Tokyo Sympathy Tower napisał ChatGPT. Co pokazuje, że taka współpraca może zaoferować dosłownie najwyższą – bo docenianą również przez fachowe jury – jakość.
Artyści wizualni również chętnie korzystają z dobro- dziejstwa kreatywnego kopa, jaki oferuje generatywna sztuczna inteligencja. Alexander Reben, rzeźbiarz, badacz interakcji człowiek–maszyna i pierwszy artysta rezydent OpenAI, kilka lat temu znudzony pandemiczną izolacją szukał nowych bodźców. Zaczął wykorzystywać ChatGPT do generowania pomysłów na opisy fikcyjnych dzieł sztuki, które potem realizował w rzeczywistości, przenosząc tę współpracę z AI z ekranu komputera do świata przedmiotów. Tak powstała m.in. słynna instalacja The Plungers („Przepychacze”).
Shy kids to z kolei zespół pop i zarazem kolektyw reży- serski z Toronto, który ostatnio zasłynął z tego, że przy użyciu generatywnego modelu Sora stworzył klip wideo pt. Air Head (w wolnym tłumaczeniu „Z głową w chmurach”), przedstawiający dzień z życia postaci, która ma ciało człowieka, a w miejscu głowy – balon. Całość przedstawiona została w bardzo ciekawy, angażujący sposób, z zachowaniem zasad dobrego storytellingu. I o ile swojego bohatera zrobili, dosłownie, w balona, o tyle odbiorców już nie – jawnie przyznają, że korzystali ze sztucznej inteligencji, by zrealizować swój pomysł na intrygujący scenariusz.
I chociaż wizualny kunszt sztucznointeligentnych kadrów zachwyca to, jak już niejednokrotnie w historii widzieliśmy, na przykładach Marcela Duchampa, Andy’ego Warhola czy naszych rodzimych Katarzyny Kozyry i Natalii LL, w prawdziwej sztuce zaangażowanej bardziej niż artystyczny warsztat liczy się pomysł. A konkretniej zawarte w nim głęboka metafora, symbolika, miks własnych doświadczeń i krytycznego komentarza o podłożu kulturowym, społecznym, politycznym – i tutaj rola człowieka wciąż jest nieodzowna. Zresztą Woodman, jeden z członków kolektywu shy kids, dobitnie podkreślił tę rolę w wywiadzie dla „MIT Technology Review”, mówiąc, że„technologia bez Ciebie jest niczym – to mocarne narzędzie, ale to Ty nim sterujesz”. Do swojego filmu artyści samodzielnie zresztą m.in. skomponowali muzykę i ją zagrali, rola narratora filmu również została napisana i odegrana przez ludzi, i to właśnie połączenie tych elementów daje niesamowity klimat i wzmacnia założony przekaz dzieła.Współpraca człowieka i AI w całej okazałości, ale bez ryzyka, że oto kreatywny model skasuje artystę.
Sztuka współtworzona wraz ze sztuczną inteligencją doczekała się na naszym rodzimym podwórku należytej uwagi w postaci Digital Ars, czyli konkursu dla sztuk wizualnych i melodii tworzonych przy udziale AI w jednej z trzech kategorii: open, no code oraz transformacje. Co warto dodatkowo podkreślić, organizator konkursu, Fundacja Digital Poland, wyczuła trend, zanim na dobre rozpowszechniło się użycie generatywnej sztucznej inteligencji, bo pierwsza edycja odbyła się już w 2020 roku, na dwa lata przed powstaniem ogólnie dostępnych modeli generatywnych, z którymi można się komunikować, wydając polecenia w języku naturalnym.
Co ciekawe, produktywny wspólny brainstorming z AI wcale nie musi dotyczyć jedynie pisania tekstów literackich. Świetnie sprawdza się również podczas wymyślania nazw, pojęć czy tytułów – można poprosić model o dowolną ilość propozycji na zadany temat („podaj 10 nazw dla firmy zajmującej się…”, „zaproponuj tytuł dla wydarzenia opartego na…”). Bardzo często zdarza się, że wiele z tych pomysłów, szczególnie w polszczyźnie, jest dość koślawych i niegotowych na scenę, ale świetnie oliwią nasze ludzkie zwoje i z doświadczenia zaręczam, że „robią robotę”, jeśli chodzi o katapultowanie ludzkiej kreatywności z pustyni na bardziej żyzną glebę. I nagle nie wiadomo kiedy z rozbawio- nego „haha, co on tu wymyślił” przechodzimy do „o, ale w sumie, gdyby to zamienić, to… o! Mamy to!”. |
Nieoczywiste połączenia
Jedna z piękniejszych definicji metafory, czyli powie- dzenia czegoś nie wprost, symbolicznie, to „dwa słowa, które się sobą nawzajem dziwią”. I to najlepiej opisuje chyba kreatywność generatywnego modelu AI – który ze znanych elementów (np. słów, a nie przypadkowych ciągów znaków typu „dhdag”) losowo tworzy połą- czenie, którego wcześniej świat (czyli zbiór danych, na których uczył się model) nie widział. Wiele z nich będzie po prostu abstrakcyjnych, dziwacznych, nieprzydatnych do użycia. Ale jeszcze więcej rozpali na nowo naszą wyobraźnię, wyciągnie za uszy z bańki gotowych, oklepanych konceptów i sprawi, że powieje świeżością. Czy tylko w szeroko pojętej sztuce? Ależ skąd! Wszę- dzie tam, gdzie po prostu potrzebny jest świeży pomysł i nietypowe połączenie znanych, dostępnych elementów w zadanym celu.
I tak np. szwedzki koncern odzieżowy H&M wykorzystuje sztuczną inteligencję do współtworzenia nowych kolekcji marki, a Coca-Cola wypuściła nowy napój Y3000, który ma oddawać smak przyszłości z roku 3000, opisany przez model AI. Jeśli zastanawiacie się, jak smakuje apokalipsa i czy Wasz żołądek to wytrzyma, to spokojnie – okazuje się, że trzecie tysiąclecie będzie po prostu bardzo landrynkowe. Polska firma Willisch stworzyła natomiast nowy smak lodów – Popcornium Karmelotron, który zaproponowała i opisała / nazwała AI.
Jesteśmy jeszcze w fazie wczesnego zachwytu egzotyką proponowanych połączeń i pewnie rynek wkrótce zweryfikuje ich trafność, niemniej czeka nas nowy, ciekawy trend zupełnie kosmicznych eksploracji. Tylko zamiast na Marsa będziemy wybierać się w przestworza kreatywnych kombinacji.
Co ciekawe, ich wymiar i potencjał wykraczają poza sztukę, rozrywkę czy branżę konsumencką i sięgają również nauki! Pierwsze eksperymenty pokazują, że kreatywność badacza wspomagana przez moc obliczeń wielkich modeli generatywnych może oznaczać poszukiwanie nowych połączeń chemicznych czy biochemicznych, a tym samym wspomagać inżynierię budowlaną czy medycynę. Albo dowodzenie twierdzeń matematycznych. No ale tu akurat wszystko zostaje w rodzinie – sztuczna inteligencja to dziecko matematyki, więc jeśli matematyka sama sobie stworzyła problemy, to niech je sobie sama teraz rozwiązuje 🙂