Imagen 3 od Google – narzędzie do generowania obrazów dostępne w Geminim!

Google zdecydował się zrobić prezent wszystkim entuzjastom AI. Czy warto przetestować Imagen 3?

Imagen 3.


Najnowszy model text-to-image, którego premiera miała miejsce w sierpniu, do tej pory dostępny był wyłącznie dla użytkowników płatnych planów Geminiego. 10 października Google postanowiło udostępnić go dla wszystkich użytkowników korzystających z podstawowej (darmowej) wersji Geminiego. Choć na rynku jest już sporo generatorów obrazów AI, to Imagen 3 zwraca uwagę kilkoma istotnymi szczegółami. 

Imagen 3 to generator na początkowej drodze rozwoju 

Każdy wytrawny użytkownik narzędzi genAI do generowania obrazów wie, że entuzjazm twórców bardzo rzadko przekłada się na jakość danego generatora. Według Google podczas wydarzenia Google I/O z tego roku „zdjęcia tworzone z jego pomocą są bardziej szczegółowe, realistyczne i wyglądają, jak zrobione w rzeczywistości”. O użyteczności i funkcjach danego narzędzia świadczą wyłącznie własnoręczne testy, pozwalające wyłuskać niuanse.

Otóż Imagen 3 to narzędzie poprawne, które w niektórych kwestiach potrafi zaskoczyć. Na sam początek peletonu zalet wysuwa się fakt, że promptowanie i używanie Imagen 3 jest bajecznie proste. Prompty możesz pisać w języku polskim i nie musisz przełączać się na żadne zakładki lub narzędzia – wszystko robisz w tym samym oknie, w którym zawsze wpisujesz prompty do Geminiego.

Bardzo mocno odczuwalne jest jednak to, że Imagen 3 jest na początkowej drodze swojego rozwoju.Modelowi zdarza się wpaść w loop, w którym nie jest w stanie wygenerować obrazu.

Zalet kilka wróbla ćwirka – mały generator tworzący duże obrazy 

Główną zaletą Image 3 jest to, że generuje obrazy o wysokiej rozdzielczości 2048×2048. Co ciekawe, taka rozdzielczość niedostępna jest w zdecydowanej większości generatorów obrazów dostępnych na rynku, dlatego artyści AI muszą praktycznie zawsze wspomagać się upscalerami.

Również prompt coherence, czyli zgodność uzyskanego obrazu z promptem jest na dość wysokim poziomie, szczególnie jeśli weźmie się pod uwagę fakt, że jest to początkowy etap rozwoju tego narzędzia. Imagen 3 rozróżnia różne style i jest w stanie tworzyć grafiki zarówno fotorealistyczne, jak i takie np. w stylu anime. Fakt, że narzędzie działa bezpośrednio w oknie czatu, sprawia, że generowanie kolejnych wersji obrazu jest proste, intuicyjne i szybkie.

Skoro jest tak dobrze, to czy Imagen 3 ma jakieś wady? 

Całkiem sporo. Pierwszą z nich jest fakt, że Imagen 3 tworzy obrazy wyłącznie w formacie 1:1. Dla osób, które korzystają z takich generatorów na co dzień  może stanowić to spory problem. Uniemożliwia to bowiem dostosowanie rozmiarów generowanej grafiki. Drugą sporą wadą jest to, że jeden prompt generuje tylko jeden obraz. W przypadku Dalle-3, Leonadro AI, czy płatnego Midjourney są to zawsze cztery warianty. 

Jeśli chodzi o całościowe działanie Imagen 3, to jest ono poprawne, choć mogłoby być znacznie lepsze. Niemniej aktualny stan rzeczy można wytłumaczyć tym, że generator obrazów od Google dopiero wchodzi na generatywne salony. Kiedy użytkownicy zaczną testować narzędzie, to jego jakość i wydajność mogą ulec znacznej poprawie.

Najlepiej jednak samemu przetestować możliwości nowego generatora od Google – wystarczy wejść na Gemini i napisać prompt. Daj się ponieść wyobraźni 😉 

Jeremiasz Krok

Redaktor prowadzący hAI Magazine, copywriter i praktyk narzędzi genAI.

Podziel się

Może Cię zainteresować