OpenAI zaprezentował multimodalny model GPT-4o. Skorzystasz z niego za darmo!

Podczas wiosennego spotkania, OpenAI zaprezentował demo nowego modelu GPT-4o. O jak “omni”, teraz model niemal w locie przetwarza wszelkie formaty – obraz, tekst, dźwięk, głos.

ChatGPT wzbogacony o multimodalną model GPT-4o

CEO OpenAI, Sam Altman, tuż przed Spring Update, zapowiedział nowości jednym słowem: magia. Internauci oraz dziennikarze będący na miejscu podzielali entuzjazm współtwórcy ChatGPT. Warto jednak zwrócić uwagę, że nieprzypadkowo OpenAI zwołało swoje spotkanie na dzień przed konferencją innego giganta – Google, gdzie z kolei mogliśmy dowiedzieć się więcej o aktualizacji jego modelu Gemini Pro i o ambitnych planach stworzenia asystenta głosowego (Google Astra). Bez wątpienia jesteśmy świadkami starć na technologicznym szczycie. Nie tylko OpenAI, Google, ale także Samsung czy Apple pracują w pocie czoła, aby zaproponować ludzkości osobistych asystentów o inteligencji zbliżonej (lub przewyższającej) nas samych.  

Co potrafi nowy model GPT4-o? 

Ale wracając do gwiazdy Spring Update, OpenAI na spotkaniu zaprezentowało nowy model o nazwie GPT-4o, gdzie w literce „o” kryje się słowo „omni”. Oznacza to wszechmodalność, czyli płynne przejścia pomiędzy obrazem, tekstem, wideo i dźwiękiem. 

ChatGPT w wersji darmowej zyskuje możliwość udostępniania plików takich jak PDF, docx czy plików graficznych, by móc pracować nad załączonymi danymi. Chatbot dodatkowo zyskuje dostęp do danych z Internetu, możliwość interpretacji czy tworzenia wykresów. Największym zaskoczeniem był fakt, że za chwilę sklep z GPTsami (czyli modelami dotrenowanymi specjalnie do wąskich zadań) zostanie całkowicie odblokowany dla użytkowników nawet bez subskrypcji Plus. Nie zapominajmy również o tym, że ChatGPT otrzymuje „pamięć” (odczuwalnie dłuższy kontekst, czyli ilość tekstu, którą można podać mu w prompcie), dzięki czemu uczy się o nas i zapamiętuje informacje, które w przyszłych konwersacjach mogą okazać się pomocne. 

Ale przysłowiowe crème de la crème pojawiło się dopiero pod koniec spotkania. Oto innowacyjny asystent głosowy. 

Asystent głosowy ChatGPT, który czyta, słucha i widzi

Prezenterzy Spring Update pokazali na żywo działanie mobilnej aplikacji ChatGPT z funkcją asystenta głosowego. Responsywność jest bardzo szybka, bowiem trwa to ok. 232 milisekund, czyli tyle czasu, ile potrzebuje człowiek do przetworzenia konwersacji. Z chatbotem można naturalnie rozmawiać, przerywać mu, uzupełniać wypowiedzi, dzięki czemu rozmowa wygląda tak, jakby była prowadzona przez dwie żywe postacie. Warto podkreślić, że z asystentem głosowym porozmawiamy w ponad 50 językach.  

Multimodalna generatywna sztuczna inteligencja GPT-4o

Tłumaczenie rozmowy obcokrajowców posługujących się różnymi językami to tylko początek. Na spotkaniu mogliśmy zaobserwować, że asystent głosowy interpretuje także wideo i obrazy. Wystarczy uruchomić aparat w smartfonie, aby sztuczna inteligencja mogła zinterpretować to, co widzi, w tym nawet ludzkie emocje. Interpretuje również intonacje, śmiech czy ludzki oddech. Rozmowa z ChatGPT to rzeczywiście coś magicznego – jeśli widzieliście film „Ona” (2013) z głosem Scarlett Johansson, to zdecydowanie rozumiecie, w jakim świecie przyszło nam żyć. Porównanie nie jest przypadkowe, bowiem głos był łudząco podobny do Scarlett Johanson. Przywołana do tablicy aktorka pozwała OpenAI o bezprawne wykorzystanie swojego głosu. Sam Altman już zapowiedział, że brzmienie zostanie jednak zmodyfikowane ze względu na „zbyt flirtujący wydźwięk” – choć prawdziwy powód jest nam dobrze znany. Dodaje także, że użytkownicy będą mieli kilka głosów do wyboru, by jak najlepiej doświadczać konwersacji z AI.

Kiedy będzie dostępny nowy model GPT-4o? 

Według zapowiedzi OpenAI aktualnie udostępniany jest model GPT-4o dla użytkowników z subskrypcją Plus oraz dla wybranych użytkowników z bezpłatnymi planami. Sam miałem okazję wypróbować multimodalny model, ale w wersji darmowej zabawa ta trwała zaledwie niecałe 5 minut.  

Z kolei asystent głosowy będzie udostępniany w ciągu najbliższych kilku tygodni. Firma pracuje nad zabezpieczeniami, bowiem zależy jej na tym, aby użytkownicy prawidłowo i etycznie korzystali z tej magii. Wraz z asystentem pojawi się także aplikacja na systemy macOS (choć w sieci można już znaleźć plik instalacyjny rozesłany do użytkowników z subskrypcją Plus), który pozwoli na współpracę ze sztuczną inteligencją w trakcie użytkowania komputera. ChatGPT będzie mógł widzieć to, nad czym pracujemy, by móc na żywo interpretować i wspierać użytkownika np. w wyciąganiu wniosków z wykresu lub w poprawianiu kodu, nad którym pracuje programista. OpenAI obiecuje także aplikację na systemy Windows, ale premiera tego rozwiązania na razie nie została zapowiedziana. 

Poczujcie tę magię sami – oglądając całe nagranie wydarzenia wraz z live demo

Kamil Świdziński

Śledzę najnowsze technologiczne trendy, w tym AI. Jako Innovation Manager jestem blisko nowych rozwiązań współpracując ze startupami.

Podziel się

Może Cię zainteresować