Działo się w AI #5

Google, Meta, OpenAI i Anthropic – do kogo należała wiosna AI 2025?

9 cze 2025

Marzec

GPT-4o: obraz do poprawki w czasie rzeczywistym

Jeśli luty należał do Sory, to marzec skradł GPT-4o – z nową funkcjonalnością, dzięki której model potrafi nie tylko generować jeszcze lepsze obrazy, ale także edytować je „w locie”. Wystarczy kliknąć dowolny element, aby go usunąć, zastąpić, dodać nowy lub zmienić tło. Szczególnie istotne są usprawnienia w generowaniu tekstów graficznych, które dotąd były piętą achillesową wielu modeli. GPT-4o rozwiązuje ten problem, a dodatkowo potrafi iteracyjnie dopracowywać obrazy w jednej sesji, bez potrzeby korzystania z osobnych aplikacji graficznych. OpenAI deklaruje, że model był szkolony wyłącznie na licencjonowanych danych (np. Shutterstock) i każda wygenerowana grafika zawiera metadane C2PA, co zwiększa transparentność i bezpieczeństwo użytkowania.

Wraz z premierą GPT-4o w sieci rozlała się fala obrazów generowanych w stylu Ghibli –popularność nowej funkcji była tak duża, że OpenAI musiało wprowadzić limity.

Funkcja spotkała się jednak nie tylko z entuzjazmem, lecz także z krytyką. Pytanie o granicę między inspiracją a naruszeniem praw autorskich powróciło z nową siłą – i nie znajdzie łatwej odpowiedzi.

xAI przejmuje X i buduje ekosystem danych

Elon Musk sprzedał platformę X (dawniej Twitter) swojej własnej firmie – xAI (co oznacza, że formalnie traci bezpośrednie właścicielstwo, ale nadal kontroluje platformę przez swoją firmę). Celem transakcji jest uzyskanie przez xAI dostępu do danych setek milionów użytkowników. To z kolei paliwo do rozwoju autorskich modeli językowych, takich jak Grok, i krok w kierunku pełnej niezależności od zewnętrznych źródeł danych. Wycena xAI wzrosła do 80 mld dolarów, co pokazuje, że rynek dostrzega w tym ruchu nie tylko technologiczną, ale i biznesową przewagę.

Kilka dni po ogłoszeniu przejęcia X, Musk zakomunikował kolejny krok – xAI kupił startup Hotshot, specjalizujący się w generowaniu filmów z tekstu. Modele Hotshot-XL, Act One i Benchmark umożliwiają tworzenie animowanych klipów i filmów reklamowych z prostych promptów, co stawia je w jednym szeregu z rozwijanymi przez OpenAI (Sora) i Google (Veo 2) rozwiązaniami.

W efekcie firma Muska ma dziś pełny zestaw zasobów: dane (X), modele językowe (Grok) i komponenty multimedialne (Hotshot). To może oznaczać, że xAI staje się jedną z najpoważniejszych platform all-in-one w świecie AI – i realnym konkurentem dla Google i OpenAI.

Perplexity – wyszukiwanie w nowej odsłonie

Na koniec miesiąca mocny akcent z segmentu wyszukiwania informacji. Perplexity – alternatywa dla Google – zaczyna budować nowy model wyszukiwarki. Zamiast list linków i wyników sponsorowanych, użytkownicy otrzymują interaktywne odpowiedzi: karty z ofertami, karuzele obrazów, wideo i opcję działania bez opuszczania wyszukiwarki.

Szukasz hotelu? Możesz od razu go zarezerwować. Widząc ofertę pracy – aplikujesz jednym kliknięciem. Zakupy, podróże, planowanie wydarzeń – wszystko odbywa się w ramach jednej sesji. Strategia Perplexity opiera się na użyteczności, a nie na systemie reklamowym, który od lat rządzi wynikami Google. Czy to wystarczy, by rzucić wyzwanie gigantowi? Na razie pokazuje, że AI może redefiniować sposób, w jaki szukamy informacji.

Kwiecień

Midjourney V7 – riposta na GPT-4o

Po marcowym boomie na generowanie obrazów GPT-4o Midjourney nie pozostał dłużny – na początku kwietnia wypuścił wersję V7, z nową architekturą, lepszym rozumieniem promptów oraz wyraźną poprawą odwzorowania detali (spójniejsze proporcje ciała, bardziej realistyczne tekstury, dopracowane szczegóły). Nowością jest również możliwość personalizacji stylu oraz edycja wygenerowanych obrazów za pomocą komend głosowych.

OpenAI: nowe modele

W tym samym czasie OpenAI rozpoczęło kwiecień od serii premier technologicznych. Najpierw światło dzienne ujrzał model GPT-4.1 – szybszy, tańszy i zoptymalizowany pod kątem zadań programistycznych. Obsługuje kontekst do 1 mln tokenów, a jego lżejsze wersje – Mini i Nano – oferują wysoką wydajność przy minimalnych opóźnieniach, idealną dla zespołów deweloperskich o ograniczonych zasobach.

Zaledwie dwa dni później OpenAI zaprezentowało modele o3 i o4-mini, ukierunkowane na głębokie rozumowanie, analizę wizualną i rozwiązywanie problemów matematycznych. o3 potrafi analizować wykresy, szkice czy ręczne notatki, a o4-mini zdobywa laury w konkursach AIME. Uzupełnieniem tego ekosystemu jest Codex CLI – otwartoźródłowy agent działający w terminalu, który automatyzuje kodowanie i edycję plików. Modele OpenAI przestają być tylko silnikami – stają się fundamentem nowego środowiska pracy.

Feed jak z Twittera – kolejny krok OpenAI

Właśnie na tym tle – rosnącej funkcjonalności modeli – pojawiły się doniesienia o testach społecznościowego feedu AI, rozwijanego przez OpenAI. Platforma ma przypominać Twittera: z dynamicznym strumieniem treści generowanych przez ChatGPT i możliwością interakcji wizualnych. W kwietniu Sam Altman nie zdradzał jeszcze, czy będzie to osobna aplikacja, czy część ChatGPT.

Meta i Anthropic: uzupełnianie układanki

Na tym dynamicznym tle Meta pokazała własną odpowiedź – rodzinę modeli Llama 4, zbudowaną na architekturze Mixture-of-Experts. Lekki Scout i potężniejszy Maverick obsługują kontekst do 10 mln tokenów i rozumieją obrazy (choć generują tylko tekst). Modele zostały już zintegrowane z WhatsAppem, Messengerem i Instagramem. Na horyzoncie czeka Behemoth – trenowany na 2 bilionach parametrów model, który w testach STEM wyprzedza GPT-4.5. Meta stawia na równowagę między otwartością a kontrolą komercyjnego wykorzystania – budując nie tylko modele, ale politykę wdrażania AI.

Tymczasem Anthropic skoncentrował się na automatyzacji pracy biurowej. Nowa funkcja „Research” w modelu Claude umożliwia przeszukiwanie dokumentów oraz sieci z automatycznym cytowaniem źródeł. Dzięki integracji z Google Workspace, Claude analizuje e-maile, kalendarze i pliki, wspierając planowanie i organizację pracy – tam, gdzie dotąd potrzeba było kilku różnych narzędzi.

Maj

Google I/O 2025: Gemini, obraz, kod i rzeczywistość rozszerzona

20 i 21 maja w kalifornijskim Shoreline Amphitheatre odbyła się konferencja Google I/O 2025 – jedno z najważniejszych wydarzeń branżowych tego roku. Flagową premierą było rozszerzenie możliwości modeli Gemini 2.5 Pro i Flash, które – jak podkreślano – przewyższają konkurencję w zadaniach związanych z kodowaniem, rozumowaniem i multimodalnością. Gemini Pro zyskał tryb „Deep Think” dla pogłębionej analizy i rozumienia kontekstu, natomiast Flash – jego lżejszy, szybszy brat – został zoptymalizowany pod kątem oszczędności tokenów. Oba modele oferują też nowy tryb „Agent Mode”, który pozwala użytkownikom zlecać AI konkretne zadania, takie jak planowanie spotkań czy wyszukiwanie mieszkań. W ramach tej ofensywy Google ogłosiło również nowości w wyszukiwarce: AI Mode, który zamienia klasyczne zapytania w interaktywną konwersację. Użytkownicy mogą teraz np. wirtualnie przymierzyć ubranie czy sfinalizować zakup bez wychodzenia z przeglądarki – całość napędzana przez Gemini. Twórcy z kolei dostali do rąk cały zestaw nowych narzędzi. Imagen 4 to nowy model do generowania obrazów, Veo 3 – narzędzie do tworzenia filmów z dźwiękiem, a Flow – aplikacja do budowania dynamicznych klipów wideo z wykorzystaniem AI. Programiści dostali Julesa – nowego asystenta kodowania, który integruje się z Gemini, przewidując intencje i dopasowując styl kodu do konkretnego projektu. Konferencja miała też swój futurystyczny akcent: prototyp okularów Android XR, rozwijanych we współpracy z Gentle Monster i Warby Parker, oraz zapowiedź systemu Google Beam – trójwymiarowych wideorozmów bez gogli, w czasie rzeczywistym. Google nie tylko pokazało, jak AI może przetwarzać informacje – ale też, jak może je pokazywać.

W tym kontekście warto wspomnieć o AlphaEvolve – systemie zaprezentowanym przez DeepMind niemal równolegle z I/O. AlphaEvolve to AI stworzona do rozwiązywania złożonych problemów matematycznych, naukowych i inżynieryjnych. Działa jak zespół badawczy: generuje rozwiązania, testuje je, wybiera najlepsze i optymalizuje. W testach poradził sobie z 75% problemów z zestawu benchmarkowego, a w 20% przypadków zaproponował lepsze rozwiązania niż znane wcześniej. W jednym z praktycznych zastosowań, system odzyskał 0,7% zasobów obliczeniowych w centrach danych Google’a – co w tej skali przekłada się na olbrzymie oszczędności energetyczne.

Anthropic pokazuje pazur tuż po Google I/O

Podczas gdy cały świat patrzył na nowości od Google’a zaprezentowane na I/O 2025, Anthropic nie próżnowało. Firma zaprezentowała Claude Opus 4 – swój najpotężniejszy model AI, który może pracować nieprzerwanie nawet przez 7 godzin bez utraty spójności. To szczególnie ważne w kontekście rosnącego zapotrzebowania na „agentów AI”, czyli systemy działające autonomicznie, długo i precyzyjnie. Claude 4 potrafi nie tylko pisać kod i analizować złożone dane, ale też samodzielnie sięgać po narzędzia (np. wyszukiwarki, pliki czy środowiska wykonawcze). W testach benchmarkowych wyprzedził konkurencję, co czyni go jednym z najlepszych modeli do kodowania na rynku. Nowością jest funkcja „extended thinking” – tryb głębszego myślenia z użyciem zewnętrznych narzędzi. Claude 4 jest dostępny przez API, Amazon Bedrock i Google Cloud Vertex AI.

OpenAI: chatGPT wkracza w e-commerce i programowanie

Podczas gdy Google rozwijało multimodalność i doświadczenia immersyjne, a Anthropic pokazało najbardziej wytrzymały model do długiej pracy, OpenAI zrobiło krok w stronę konsumenckiego mainstreamu. W maju w ChatGPT pojawiła się nowa funkcja: interaktywny moduł zakupowy. Użytkownicy mogą teraz przeszukiwać produkty, porównywać ceny i kupować bezpośrednio z poziomu czatu.

Równolegle OpenAI udostępniło Codex – potężnego agenta programistycznego, działającego w chmurze. Zasilany przez model codex-1 (wariant o3 zoptymalizowany pod kątem kodowania), Codex potrafi samodzielnie realizować wiele zadań jednocześnie: od pisania funkcji i naprawy błędów po przeprowadzanie testów.

Bielik 2.5: polski agent AI rośnie w siłę

A żeby nie było, że wszystko dzieje się tylko w Kalifornii – polska scena AI też miała swoje pięć minut. Podczas konferencji GOSIM AI Spotlight (6–7 maja, Paryż) zaprezentowano nową generację modelu Bielik 2.5, wraz z dwiema lżejszymi odmianami. Nowe Bieliki potrafią działać jako pełnoprawni agenci – od chatbotów, przez asystentów głosowych, po zaawansowane systemy automatyzacji zadań.

Joanna Kostecka

Z wykształcenia polonistka, graficzka, marketingowiec i wdrożeniowiec rozwiązań AI. Prezeska Fundacji Fabryka Dobrych Projektów, propagatorka inkluzywności. Entuzjastka AI i VR, szczególnie w obszarze medycyny i healthcare.

Podziel się

AI, Anthropic, Google I/O 2025, meta, openai, perplexity

Podziel się

Może Cię zainteresować

Joanna Kostecka

Kiedy człowiek spotyka maszynę

Czy nasza gotowość do współpracy z maszynami zależy od kultury, w której dorastamy?

05.05
Joanna Kostecka

Cyfrowe bliźniaczki przejmują wybieg: H&M, etyka i nowa definicja modelingu

Na ich skórze nie widać porów, nie trzeba organizować dla nich castingów i nie zadają trudnych pytań. I stają się twarzami kampanii największych marek. Czy w modelingu jest jeszcze miejsce dla człowieka?

11.04
Joanna Kostecka

Zaprojektuj przyszłość jednym zdaniem, czyli jak AI zmienia świat modelowania 3D

Jeszcze do niedawna tworzenie modeli 3D wymagało godzin pracy projektantów, dziś – dzięki technologii text–to–3D – za pomocą prostej komendy możemy w kilka sekund stworzyć mebel na wymiar czy element architektoniczny.

24.03
Joanna Kostecka

O krok od telepatii

Wyobraź sobie technologię, która przekształca Twoje myśli w tekst bez wypowiadania ani słowa – dzięki AI i semantycznym dekoderom to już rzeczywistość, która zmienia przyszłość komunikacji.

04.03

Działo się w AI #5

Marzec

GPT-4o: obraz do poprawki w czasie rzeczywistym

xAI przejmuje X i buduje ekosystem danych

Perplexity – wyszukiwanie w nowej odsłonie

Kwiecień

Midjourney V7 – riposta na GPT-4o

OpenAI: nowe modele

Feed jak z Twittera – kolejny krok OpenAI

Meta i Anthropic: uzupełnianie układanki

Maj

Google I/O 2025: Gemini, obraz, kod i rzeczywistość rozszerzona

Anthropic pokazuje pazur tuż po Google I/O

OpenAI: chatGPT wkracza w e-commerce i programowanie

Bielik 2.5: polski agent AI rośnie w siłę

Podziel się

Podziel się

Może Cię zainteresować

Kiedy człowiek spotyka maszynę

Cyfrowe bliźniaczki przejmują wybieg: H&M, etyka i nowa definicja modelingu

Zaprojektuj przyszłość jednym zdaniem, czyli jak AI zmienia świat modelowania 3D

O krok od telepatii