OpenAI zaprezentował multimodalny model GPT-4o. Skorzystasz z niego za darmo!

Podczas wiosennego spotkania, OpenAI zaprezentował demo nowego modelu GPT-4o. O jak “omni”, teraz model niemal w locie przetwarza wszelkie formaty – obraz, tekst, dźwięk, głos.

Kamil Świdziński

20 maj 2024

ChatGPT wzbogacony o multimodalną model GPT-4o

CEO OpenAI, Sam Altman, tuż przed Spring Update, zapowiedział nowości jednym słowem: magia. Internauci oraz dziennikarze będący na miejscu podzielali entuzjazm współtwórcy ChatGPT. Warto jednak zwrócić uwagę, że nieprzypadkowo OpenAI zwołało swoje spotkanie na dzień przed konferencją innego giganta – Google, gdzie z kolei mogliśmy dowiedzieć się więcej o aktualizacji jego modelu Gemini Pro i o ambitnych planach stworzenia asystenta głosowego (Google Astra). Bez wątpienia jesteśmy świadkami starć na technologicznym szczycie. Nie tylko OpenAI, Google, ale także Samsung czy Apple pracują w pocie czoła, aby zaproponować ludzkości osobistych asystentów o inteligencji zbliżonej (lub przewyższającej) nas samych.

Co potrafi nowy model GPT4-o?

Ale wracając do gwiazdy Spring Update, OpenAI na spotkaniu zaprezentowało nowy model o nazwie GPT-4o, gdzie w literce „o” kryje się słowo „omni”. Oznacza to wszechmodalność, czyli płynne przejścia pomiędzy obrazem, tekstem, wideo i dźwiękiem.

ChatGPT w wersji darmowej zyskuje możliwość udostępniania plików takich jak PDF, docx czy plików graficznych, by móc pracować nad załączonymi danymi. Chatbot dodatkowo zyskuje dostęp do danych z Internetu, możliwość interpretacji czy tworzenia wykresów. Największym zaskoczeniem był fakt, że za chwilę sklep z GPTsami (czyli modelami dotrenowanymi specjalnie do wąskich zadań) zostanie całkowicie odblokowany dla użytkowników nawet bez subskrypcji Plus. Nie zapominajmy również o tym, że ChatGPT otrzymuje „pamięć” (odczuwalnie dłuższy kontekst, czyli ilość tekstu, którą można podać mu w prompcie), dzięki czemu uczy się o nas i zapamiętuje informacje, które w przyszłych konwersacjach mogą okazać się pomocne.

Ale przysłowiowe crème de la crème pojawiło się dopiero pod koniec spotkania. Oto innowacyjny asystent głosowy.

Asystent głosowy ChatGPT, który czyta, słucha i widzi

Prezenterzy Spring Update pokazali na żywo działanie mobilnej aplikacji ChatGPT z funkcją asystenta głosowego. Responsywność jest bardzo szybka, bowiem trwa to ok. 232 milisekund, czyli tyle czasu, ile potrzebuje człowiek do przetworzenia konwersacji. Z chatbotem można naturalnie rozmawiać, przerywać mu, uzupełniać wypowiedzi, dzięki czemu rozmowa wygląda tak, jakby była prowadzona przez dwie żywe postacie. Warto podkreślić, że z asystentem głosowym porozmawiamy w ponad 50 językach.

Multimodalna generatywna sztuczna inteligencja GPT-4o

Tłumaczenie rozmowy obcokrajowców posługujących się różnymi językami to tylko początek. Na spotkaniu mogliśmy zaobserwować, że asystent głosowy interpretuje także wideo i obrazy. Wystarczy uruchomić aparat w smartfonie, aby sztuczna inteligencja mogła zinterpretować to, co widzi, w tym nawet ludzkie emocje. Interpretuje również intonacje, śmiech czy ludzki oddech. Rozmowa z ChatGPT to rzeczywiście coś magicznego – jeśli widzieliście film „Ona” (2013) z głosem Scarlett Johansson, to zdecydowanie rozumiecie, w jakim świecie przyszło nam żyć. Porównanie nie jest przypadkowe, bowiem głos był łudząco podobny do Scarlett Johanson. Przywołana do tablicy aktorka pozwała OpenAI o bezprawne wykorzystanie swojego głosu. Sam Altman już zapowiedział, że brzmienie zostanie jednak zmodyfikowane ze względu na „zbyt flirtujący wydźwięk” – choć prawdziwy powód jest nam dobrze znany. Dodaje także, że użytkownicy będą mieli kilka głosów do wyboru, by jak najlepiej doświadczać konwersacji z AI.

Kiedy będzie dostępny nowy model GPT-4o?

Według zapowiedzi OpenAI aktualnie udostępniany jest model GPT-4o dla użytkowników z subskrypcją Plus oraz dla wybranych użytkowników z bezpłatnymi planami. Sam miałem okazję wypróbować multimodalny model, ale w wersji darmowej zabawa ta trwała zaledwie niecałe 5 minut.

Z kolei asystent głosowy będzie udostępniany w ciągu najbliższych kilku tygodni. Firma pracuje nad zabezpieczeniami, bowiem zależy jej na tym, aby użytkownicy prawidłowo i etycznie korzystali z tej magii. Wraz z asystentem pojawi się także aplikacja na systemy macOS (choć w sieci można już znaleźć plik instalacyjny rozesłany do użytkowników z subskrypcją Plus), który pozwoli na współpracę ze sztuczną inteligencją w trakcie użytkowania komputera. ChatGPT będzie mógł widzieć to, nad czym pracujemy, by móc na żywo interpretować i wspierać użytkownika np. w wyciąganiu wniosków z wykresu lub w poprawianiu kodu, nad którym pracuje programista. OpenAI obiecuje także aplikację na systemy Windows, ale premiera tego rozwiązania na razie nie została zapowiedziana.

Poczujcie tę magię sami – oglądając całe nagranie wydarzenia wraz z live demo

Więcej informacji o nowościach ze Spring Update przeczytacie na oficjalnej stronie.

Kamil Świdziński

Śledzę najnowsze technologiczne trendy, w tym AI. Jako Innovation Manager jestem blisko nowych rozwiązań współpracując ze startupami.

Podziel się

asystent głosowy, chatgpt, gpt4o, openai

Podziel się

Może Cię zainteresować

Kamil Świdziński

Fantastyczne agenty i jak je znaleźć

Jeszcze niedawno sztuczna inteligencja kojarzyła się głównie z czatem. Dziś dostrzegamy w niej znacznie więcej. AI potrafi nie tylko reagować na prompty, ale także działać bez ludzkiej ingerencji.

24.10
Kamil Świdziński

Anthropic płaci 1,5 mld dolarów. Największa ugoda copyrightowa w historii

Twórca Claude’a zgodził się zapłacić, by zakończyć proces o naruszenie praw autorskich. Czy ta sprawa zmieni sposób, w jaki firmy AI szkolą swoje modele?

08.09
Kamil Świdziński

Big-techowa wojna o najbardziej utalentowanych w branży AI

Dolina Krzemowa w centrum tornada. I to nie z powodu zmian klimatycznych, lecz dlatego, że właśnie tam toczy się największa w historii technologii bitwa o umysły.

13.08
Kamil Świdziński

Nie taki tajny agent już w akcji

OpenAI powołał do Twoich codziennych misji pierwszego, tak szeroko dostępnego, agenta AI. Poznaj ChatGPT Agent – asystenta, który zrealizuje zadania za Ciebie.

18.07

OpenAI zaprezentował multimodalny model GPT-4o. Skorzystasz z niego za darmo!

Co potrafi nowy model GPT4-o?

Asystent głosowy ChatGPT, który czyta, słucha i widzi

Kiedy będzie dostępny nowy model GPT-4o?

Poczujcie tę magię sami – oglądając całe nagranie wydarzenia wraz z live demo

Podziel się

Podziel się

Może Cię zainteresować

Fantastyczne agenty i jak je znaleźć

Anthropic płaci 1,5 mld dolarów. Największa ugoda copyrightowa w historii

Big-techowa wojna o najbardziej utalentowanych w branży AI

Nie taki tajny agent już w akcji