Twarz do wyboru, głos do koloru

Wyobraźmy sobie poniedziałkowy poranek za kilka lat. Wstaję, nie golę się – jak zwykle – ale zanim wyjdę z domu, otwieram aplikację i ustawiam swój profil publiczny na wariant „schludny profesor”.

Każdy, kto spojrzy na mnie przez okulary rozszerzonej rzeczywistości, zobaczy mnie ogolonym, w wyprasowanej koszuli, może nawet odrobinę młodszym. Dla żony zostawiam profil domyślny, bo ona i tak wie, jak wyglądam. Dla studentów – wersję z brodą, bo ponoć dodaje autorytetu.

Brzmi absurdalnie. A jednak kierunek rozwoju technologii wcale nie jest tak odległy od tej wizji. Meta Reality Labs od 2015 roku rozwija linię prac nad tzw. Codec Avatars – fotorealistycznymi awatarami twarzy i głowy, których wygląd oraz mimika mogą być odtwarzane cyfrowo w czasie rzeczywistym. W publikacji Pixel Codec Avatars pokazano system zdolny do bardzo wiernego odwzorowania twarzy, a w kolejnych pracach rozwijano zarówno sam realizm obrazu, jak i praktyczne metody pozyskiwania danych potrzebnych do budowy awatara.

Nowsze wersje oparte na reprezentacjach gaussowskich pozwalają jeszcze lepiej oddawać drobne szczegóły – włosy, mikroteksturę skóry, sposób, w jaki twarz reaguje na zmianę oświetlenia. To nie znaczy jeszcze, że każdy użytkownik może dziś jednym ruchem zrobić sobie perfekcyjny model twarzy ze zwykłego selfie i od razu używać go w codziennej komunikacji. Znaczy jednak, że laboratoryjne demonstracje zbliżają się do poziomu, który jeszcze niedawno wydawał się być odległym science fiction, jak w Czarnych Oceanach.

Głos? Tu postęp jest równie szybki. Współczesne modele  potrafią syntetyzować mowę na podstawie próbki długości zaledwie trzech sekund. Zachowują nie tylko cechy głosu mówiącego, ale również elementy emocjonalne i akustyczne obecne w nagraniu referencyjnym. Jeśli więc próbka brzmi jak wypowiedź ze złością, w dużym pomieszczeniu i z lekkim pogłosem, system może odtworzyć także te właściwości. Odbieracie telefon z nieznanego numeru? Lepiej poczekajcie z mówieniem „halo”…

Niektóre technologie (np. VALLE-2) osiągnęły poziom ludzki w wybranych benchmarkach, co oznacza, że w określonych testach odsłuchowych ich wynik jest porównywalny z mową zwykłego człowieka. To bardzo dużo. Nie znaczy jednak, że – przynajmniej na dziś – każda syntetyczna wypowiedź w każdych warunkach jest już nieodróżnialna od ludzkiej. Sam Microsoft potraktował projekt jako badawczy i nie udostępnił go publicznie, wskazując przy tym wprost na ryzyko nadużyć, takich jak podszywanie się pod inne osoby.

Jeśli połączymy fotorealistyczny awatar twarzy z klonowaniem głosu i z dojrzewającymi urządzeniami klasy AR oraz mixed reality, dostajemy bardzo wyraźny kierunek rozwoju. Nie chodzi jeszcze o gotowy produkt, który jutro zmieni życie wszystkich. Chodzi o to, że poszczególne elementy tej układanki już istnieją. Twarz może być cyfrowo rekonstruowana i animowana. Głos może być wiernie syntetyzowany. Interfejs nakładany na pole widzenia użytkownika też już nie jest czystą fantazją. W takim świecie profesor mógłby na wykładzie wyglądać jak bardziej uporządkowana wersja samego siebie, sprzedawca mógłby brzmieć jak ktoś znajomy, a rozmówca mógłby być widziany nie takim, jakim jest, lecz takim, jakim chce się pokazać, nie wspominając już o obcokrajowcach, którzy swoim głosem mogliby mówić do nas od razu w naszym języku.

I tu pojawia się drugi, może nawet ciekawszy wątek. Okulary AR to nie tylko narzędzie do zmiany tego, co inni widzą we mnie. To także filtr tego, co widzę ja. Badania nad diminished reality – technikami wizualnego ukrywania lub usuwania elementów realnej sceny – pokazują, że obiekty ze świata fizycznego można cyfrowo „wymazywać”, a powstałe luki uzupełniać wiarygodnym tłem. System InpaintFusion rozwija tę logikę dla scen trójwymiarowych i robi to inkrementalnie, w czasie rzeczywistym, bez potrzeby każdorazowego rekonstruowania wszystkiego od zera. To coś w rodzaju Photoshopa dla scen 3D – tylko działającego na żywo.

Zatem: nie chcę widzieć reklam na ulicy – znikają. Brzydki blok za oknem – zastępuje go park. Ktoś siedzący obok na ławce, kto burzy mój estetyczny nastrój – zostaje wizualnie wygaszony. Tu kończy się zabawa, a zaczyna pytanie o etykę. Nie dlatego, że technologia byłaby z definicji zła, lecz dlatego, że daje władzę nad samą tkanką codziennego doświadczenia. Już nie tylko nad tym, co czytam, ale nad tym, co w ogóle widzę i słyszę. Wdrożenie takiej technologii powszechnie to mokry sen każdego cenzora.

Sherry Turkle pisała o technologiach komunikacyjnych, które obiecują bliskość, a często wzmacniają samotność. W tym sensie rozszerzona rzeczywistość może pójść jeszcze dalej. Nie tylko filtruje przekaz. Filtruje percepcję. Nie daje więc wyłącznie kolejnej bańki informacyjnej, lecz może zacząć budować bańkę sensoryczną – osobną, prywatną wersję świata, gładziej zredagowaną, wygodniejszą i coraz mniej wspólną. Trudno się będzie jej oprzeć.

Jeremy Bailenson od lat pokazuje, że środowiska immersyjne mogą silnie wpływać na ludzkie zachowanie, emocje i przekonania. Im bardziej przekonujące staje się medium, tym mniej jest neutralnym kanałem, a tym bardziej środowiskiem, które aktywnie formuje doświadczenie. Jeśli więc każdy z nas zacznie funkcjonować w częściowo innej, spersonalizowanej wersji rzeczywistości, pytanie o wspólne doświadczenie przestanie być filozoficzną ozdobą. Stanie się pytaniem politycznym, społecznym i bardzo praktycznym. Co to znaczy spotkać się twarzą w twarz, jeśli twarz jest generowana algorytmicznie, a głos został wytrenowany na trzech sekundach nagrania?

Nie wiem. Ale przyznaję, że profil „schludny profesor” nadal wydaje mi się kuszący.

Profesor zarządzania Akademii Leona Koźmińskiego, gdzie kieruje katedrą MINDS (Management in Networked and Digital Societies). Pracuje też jako faculty associate w Berkman-Klein Center for Internet and Society na Harvardzie. Wiceprezes Polskiej Akademii Nauk. Członek Rady Programowej CampusAI.

Share

You might be interested in