Nowy lider AI? Konferencja Google I/O 2024

14 maja 2024 w Mountain View odbyła się doroczna konferencja Google I/O. Jest to wydarzenie poświęcone nowościom produktowym i technologicznym spod znaku kolorowego G. Pokazano dużo, ale co było najbardziej wartościowe z punktu widzenia przyszłości AI?

Choć w założeniach konferencja jest skierowana głównie do developerów, to jej przekaz jasno pokazał, jaki sygnał Google wysyła całemu, nie tylko technologicznemu, światu: chęć dominacji w obszarze rozwiązań bazujących na sztucznej inteligencji. Warto wspomnieć, że I/O miało miejsce dzień po „Spring Update” – podobnym w charakterze wydarzeniu zorganizowanym przez OpenAI – pioniera rozwiązań z wykorzystaniem AI. Kontrast między kameralną formą tego drugiego i korporacyjnym rozmachem Google’a był aż nadto widoczny, jednak ruch twórców ChatGPT jest w pełni zrozumiały: postęp i szybkość w rozwoju AI jest oszałamiająca, więc walka o uwagę całego świata (użytkowników, firm, inwestorów) jest bezwzględna. Po więcej szczegółów na temat konkurencji zapraszam do artykułu Kamila Świdzińskiego o nowościach od OpenAI, a tymczasem przyjrzyjmy się temu, co zaoferował Google (całość konferencji można zobaczyć tutaj).

100 nowości od Google

Mnogość rozwiązań przedstawionych na konferencji może przytłoczyć, zwłaszcza te osoby, które nie śledzą na bieżąco wszystkiego, co dzieje się w obszarze AI (Google wylicza, że zaprezentował łącznie aż 100 nowości!). Nawet najlepiej poinformowani blogerzy mają niemały kłopot, by nadążyć za nowościami i rozstrzygnąć o tym, co rewolucyjne, a co niekoniecznie (tu warto polecić wpisy np. Marquesa Brownlee’a).

Już sam pre-show konferencji, w którym za rozgrzewkę odpowiadał Marc Rebillet (muzyk i improwizator, który ma prawie 2,5 miliona obserwatorów na Youtube), był sporym zaskoczeniem. Poza charakterystyczną dla niego ekspresją, w swój set wplótł demo nowego produktu Google’a MusicFX DJ Tool. Udział Marca jest o tyle ciekawy, że aktualnie przez branżę przetacza się duża fala niepewności co do przyszłości tej dziedziny sztuki w związku z rosnącymi możliwościami sztucznej inteligencji. Jednak Rebillet jest jednym wielkim modelem LMM do generowania muzyki – AI pewnie pozwoli mu jeszcze bardziej rozwinąć skrzydła.

CEO Google’a, Sundar Pichai, zakomunikował, że flagowy model LLM Gemini Pro (z wielkością zapytań do 1 miliona tokenów) będzie od teraz dostępny dla każdego developera. Dodatkowo już teraz ruszają testy z zapytaniami o wielkości 2 milionów tokenów (a wszystko w coraz atrakcyjniejszej cenie). To mniej więcej taka objętość, jak wszystkie książki o Harrym Potterze. Ich zawartość będzie można wrzucić do modelu i np. zamienić na komiks. Albo umieścić fabułę w zupełnej innej estetyce, np. świecie Star Wars. Możliwość tyleż fascynująca, co niekoniecznie etyczna.


Źródło: https://blog.google/technology/developers/io-2022-keynote/

Z prezentacji CEO najbardziej utkwił mi cytat, który dość wyraźnie charakteryzuje kierunek, w jakim zdaniem Pichai zmierza AI:

„turning any input into any output”.
(„zamieniać wszelkie możliwe dane na wejściu we wszelki możliwy efekt na wyjściu”)

Coś, co do tej pory było największym wyzwaniem dla użytkownika, czyli tworzenie promptów ze szczegółowym kontekstem (tak by model dobrze zrozumiał intencje i wygenerował najlepszą odpowiedź) – przestaje być problemem. Sztuczna inteligencja coraz mocniej będzie integrowana z programami i sprzętem, które będą samodzielnie identyfikować kontekst, w jakim znajdują się one same albo człowiek, a wszystko to dzięki analizie wszystkich typów informacji wejściowej: tekstu, audio czy video. Użytkownikowi pozostanie tylko (i aż) zadawanie pytań i podejmowanie decyzji (aż, bo szczególnie to ostatnie jest nie lada wyzwaniem i nakłada odpowiedzialność). Wszystko w czasie rzeczywistym i języku naturalnym, bez opóźnień na połączenie z serwerem. Natywne AI stanie się czymś tak powszechnym, jak aplikacja do pogody.

Audio Overviews

Wyobraźcie sobie, że jesteście na studiach i zbieracie materiały do pracy semestralnej: artykuły, filmy, zdjęcia, książki, itd. Materiału jest dużo, informacje Was interesujące są mocno rozproszone, a sesja za rogiem. Narzędzie Notebook LM (dostępne na razie tylko w US) pozwala na zaimportowanie wszystkich źródeł, a następnie odpytanie AI w obszarze nas interesującym, by sprawnie zgromadzić referencje i stworzyć własny materiał. Niedługo zaś cały materiał AI zamieni w…  audycję, w którym np. dwa awatary AI w ciekawy sposób będą recenzowały materiał w formie wzajemnej dyskusji. Ba, będzie można samemu włączyć się (głosowo) i podyskutować w temacie czy poprosić o wyjaśnienie poszczególnych zagadnień. To z pewnością ukłon w stronę młodszych pokoleń, które podobno lepiej przyswajają treści, słuchając podcastu czy przeglądając wideo-rolki.


Źródło: https://www.youtube.com/watch?v=XEzRZ35urlk

Projekt Astra

Podstawową formą interakcji przeciętnego Kowalskiego z AI mają być asystenci, np. w formie aplikacji na telefon. Umiejętność analizy wideo w czasie rzeczywistym to ostatni krok w stronę w pełni multimodalnych agentów AI, które będą w stanie zrozumieć zapytanie w każdej formie (i formacie). Podczas prezentacji obraz z kamery telefonu na bieżąco był analizowany przez AI, a użytkownik mógł zadawać dowolne pytania: jaki przedmiot wydaje dźwięk (chodziło o głośnik stojący na biurku), co robi fragment kodu aplikacji (pokazany na ekranie komputera), co widać za oknem (dzielnicę Londynu) czy gdzie zostawiono okulary (czyżby powrót Google Glass?). Zwłaszcza ten ostatni przykład robi wrażenie, bo potwierdza, że asystent nie tylko analizuje wejście modelu w czasie rzeczywistym, ale też zapamiętuje obraz (by odnieść się do niego później). Odpowiedzi Astry były kreatywne i naturalne, a nie tylko bezwiednie powtarzające quasi-encyklopedyczne fakty. Tutaj sztuczna inteligencja działała naprawdę jak drugie oczy, uszy, a może nawet głowa – w każdym razie, jak prawdziwie inteligentny asystent. To demo świetnie pokazuje potencjał tego narzędzia. Już widać, że np. niewidomi czy osoby starsze otrzymają nowy poziom niezależności.

Music AI Sandbox

Platformy takie Suno czy Udio już teraz zaskakują jakością i wszechstronnością, ale też przyspieszają bicie serca komercyjnych artystów, stawiając pod znakiem zapytania ich przyszłość. Dlatego jako muzyka amatora bardziej interesuje mnie AI, które wesprze, a nie zastąpi w tworzeniu. Każdy, kto zajmuje się kompozycją i produkcją muzyki wie, jak czasem żmudne bywa eksperymentowanie i dochodzenie do finalnego utworu. I tu z pomocą przychodzi nowe narzędzie od Google’a, które ma tworzyć przestrzeń, w której jako muzyk będę mógł szybko i bez ograniczeń eksperymentować z różnymi brzmieniami (np. instrumentów, na których nie umiem grać) czy stylami (dodając brazylijskie akcenty do piosenki pop). Przesłuchując utwory stworzone przez artystów, którzy promują rozwiązanie, trudno jednoznacznie zgadnąć, gdzie zadziałał człowiek, a gdzie AI. To jedno z wielu rozwiązań zaprezentowanych na konferencji, które trzeba przetestować samemu, by móc je ocenić. Ale wygląda bardzo obiecująco.


Źródło: https://www.youtube.com/playlist?list=PLqYmG7hTraZA7o7KkLWoVscoELWRGu3Xg

AI Teammate 

Google jako dostawca pakietu biurowego Workspace z pewnością będzie integrował swój model Gemini każdą aplikacją: gmail, sheets czy chat. Wszystko oczywiście pod szyldem zwiększania produktywności i uwalniania czasu pracownika. Pomóc ma w tym nowy typ wirtualnego asystenta AI, którego zadaniem jest wspieranie zespołów (a nawet pojedynczego pracownika) w komunikacji i mniej ciekawych zadaniach. Wyobraźcie sobie sekretarkę/sekretarza, który wie, co się działo i dzieje w Waszym projekcie, na bieżąco monitorując dokumentację, maile czy czaty. I zamiast przekopywać się przez tony maili czy ścigać kolegów o statusy – nasz wirtualny teammate w każdej chwili pomoże zaktualizować stan naszej wiedzy, zrobi notatki ze spotkania, research na wskazany temat czy przypomni o zbliżających się deadline’ach. Dodatkowo pomoże wprowadzić nowe osoby w projekt. Być może kawy (jeszcze?) nie zrobi, ale pizzę z pewnością już zamówi 🙂 Myślę, że wiele firm będzie podchodzić do takich rozwiązań z rezerwą, czy warto dzielić się z modelami AI bezcenną wiedzą firmową w zamian za wydajniejszych pracowników (ale tu też mamy rozwiązanie w postaci modeli uruchamianych bezpośrednio w zasobach firm, czyli tzw. on premise).

Bezpieczeństwo w świecie AI

Równolegle z pozytywnym wpływem AI na nasze życie lawinowo wzrasta liczba i skuteczność zagrożeń z nią związanych. Temat ten jest bliski wielu osobom, zwłaszcza w kontekście bezpieczeństwa starszych członków rodziny i dzieci. I co było do przewidzenia: najskuteczniejszym obrońcą przed wrogim AI będzie… nasze osobiste AI. Asystenci korzystający z Gemini będą mogli monitorować nasze rozmowy czy maile i – jeśli zagrożenie zostanie wykryte (np. niespodziewany telefon od „twojego” banku) – zaalarmują w odpowiedni sposób. To oczywiście będzie wymagało pełnej integracji AI z naszym prywatnym życiem. Ale może się okazać, że niestety nie będzie innej alternatywy, poza tą bieszczadzką. Warto też wspomnieć, że Google równolegle rozwija narzędzia do znakowania (tzw. watermarking) treści tworzonych przez AI – dzięki temu wiarygodny content będzie łatwiej mógł przebić się – w zalewie fejków, botów i scamów. To jednak wyzwanie wymagające rozwiązań na poziomie prawa, a nie tylko technologii.

Gemini Pro, AI Overwiews, Ask Photos, Notebook LM, AlphaFold 3, Gemini Flash, AI Studio, Vertex AI, Project Astra, SynthID, Imagen 3, Labs, Music AI Sandbox, Veo, VideoFX, ImageFX, MusicFX DJ Tool, AI Teammates, Gems, Gemini Nano, PaliGemma, SynthID, LearnLM…  – wiele z tych produktów tworzonych przez ambitny start-up jeszcze niedawno mogłyby samodzielnie pretendować do tytułu jednorożca. Dziś stanowią jeden z wielu elementów skomplikowanej i ambitnej googlowskiej strategii bycia liderem w obszarze AI. Myślę, że konferencja I/O pokazała, że cel ten nie jest tak odległy. Przy czym warto też pamiętać, że w historii giganta z Mountain View jest wiele projektów  wycofanych czy też niezrealizowanych. Wygląda jednak na to, że odmiennie od ostatniej prezentacji modelu Gemini, zaprezentowane rozwiązania albo świetnie działają, albo są w fazie zaawansowanych testów. Niestety do wielu z nich będziemy mieli dostęp dopiero za kilka miesięcy. Obecny wyścig o palmę pierwszeństwa w świecie AI z pewnością zadziała motywująco na wszystkie firmy, a każdy poślizg czy wpadka będzie bezlitośnie wykorzystywany przez konkurencję. Czyli inne modele AI 🙂

Osobom jeszcze bardziej zainteresowanym tematami AI polecam materiały z poszczególnych paneli dyskusyjnych całej konferencji Google I/O.

UPDATE: przy takiej liczbie produktów i technologii nie trudno o wpadkę. Jedno z flagowych rozwiązań promowanych na konferencji I/O – AI Overview (czyli podsumowanie wyników wyszukiwania w Google search) zaliczyło niemały falstart: model zwracał absurdalne rekomendacje – np. że palenie w ciąży jest zdrowe. Sytuacja ta potwierdza przynajmniej dwie rzeczy: jak trudnym i skomplikowanym zadaniem są testy modeli LLM oraz, że w myśl zasady garbage in – garbage out jakość odpowiedzi zależy od jakości materiałów, na których trenowane są algorytmy, i stosunkowo łatwo „zatruć” cenny materiał źródłowy.

Seweryn Jakubiec

Senior Product Manager w branży IT, obserwator świata tech i AI, muzyk-amator, wielbiciel kotów rasy Devon Rex

Podziel się

Może Cię zainteresować