Poznaj DNA obrazów i twórz spójne grafiki

„Nie da się!” Takich „nie-da-siów” poznałam już tylu, że przestałam ich liczyć. A szczególnie wśród content creatorów, grafików i designerów, gdy pojawił się Chat GPT i Dall-e.

Joanna Neumann

15 lip 2024

Kiedy pojawiła się możliwość generowania obrazów dzięki AI liczba „nie-da-sów” wzrosła. Dlaczego? Bo nie da się wygenerować serii obrazów z opcją odniesienia do wcześniej wygenerowanego obrazu. I na tym rozmowy się kończyły. Ale dziś już wiemy, że się da! I to z Chat GPT i Dall-e 3.

Zacznijmy od podstaw!
Narzędzia takie jak gen_id i seed, o których będzie tu mowa, stają się kluczowe w procesie tworzenia spójnych i stylowo zgodnych obrazów za pomocą technologii Dall-e. Czyli da się!

Modele takie jak Dall-e są w stanie rozpoznawać i naśladować style, wzorce i elementy z obrazów referencyjnych, umożliwiając tworzenie nowych dzieł, które zachowują charakterystyczne cechy tych, które zostały już stworzone. Tworzenie spójnych obrazów w tym kontekście nie jest trudne, ale wymaga cierpliwości i zrozumienia tych narzędzi.

Gen_id, a co to jest?

Gen_id, czyli Generation identifier, funkcjonuje jak unikalny łańcuch DNA dla każdego obrazu wygenerowanego przez Dall-e. Z tą tylko różnicą, że w cyfrowej formie DNA, zamiast nukleotydów, omawianych na lekcji biologii, mamy nośniki cyfrowe, które jednoznacznie określają cechy i charakterystykę każdego powstałego obrazu. To „etykieta”, która umożliwia jednoznaczne zidentyfikowanie danej kreacji. Podobnie jak DNA określa nas i nasze cechy, na identyfikację i odróżnienie jednego organizmu od drugiego, tak gen_id pozwala odróżniać między sobą powstałe interpretacje graficzne tekstu.

Gen_id służy jako identyfikator odniesienia do konkretnych obrazów, pozwalając na ich modyfikację i tworzenie nowych dzieł w podobnym stylu, podczas gdy seed umożliwia reprodukcję obrazów, co daje użytkownikowi większą kontrolę nad procesem generowania.

Dzięki gen_id każdy obraz można łatwo odróżnić i odnaleźć wśród wielu innych, zachowując spójność stylistyczną i tematyczną. Na przykład, jeśli obraz z danym gen_id charakteryzuje się określonym stylem artystycznym, identyfikator ten pozwala na kontynuację tego stylu w nowych dziełach. Ten proces przypomina dziedziczenie, w którym to geny przekazują cechy z pokolenia na pokolenie, z tą różnicą, że w świecie cyfrowym kluczowym elementem procesu jest tworzenie szczegółowych i precyzyjnych promptów, które definiują, co dokładnie ma być przedstawione na obrazie. Gen_id wspiera ten proces, działając jak cyfrowy kod genetyczny, który pomaga w tworzeniu obrazów spójnych i zgodnych z oczekiwaniami, odnosząc się do istniejących już dzieł.

Nasionko obrazu, czyli jak działa seed

Podobnie jak DNA zawiera instrukcje potrzebne do rozwoju i funkcjonowania organizmów w postaci jednej z czterech zasad azotowych: adeniny, cytozyny, guaniny lub tyminy, tak seed, czyli „nasiono” w procesie generowania obrazów przez Dall-e działa jak zestaw instrukcji dla algorytmu, determinując, jak będą wyglądać finalne dzieła.

Seed jest wartością liczbową, którą inicjuje generator liczb pseudolosowych, decydując o wyborze elementów, kompozycji i stylu, które zostaną połączone w celu stworzenia obrazu.

Podczas generowania wyniku sieć transformerowa wychodzi od losowego punktu (zestawu liczb, czyli wspomnianego nasionka – seed), i w trakcie kolejnych epok uczenia aktualizuje te liczby (tzw. wagi) zgodnie z przyjętym algorytmem, konfiguracją modelu i reprezentacją danych uczących. Ponieważ proces uczenia jest sam w sobie probabilistyczny oraz zawiera w sobie ten element losowości, nawet dla tego samego promptu przy kolejnych wywołaniach modelu dostajemy mniej lub bardziej różne odpowiedzi. Dlatego właśnie ustalenie i podawanie tego samego punktu wyjścia – seedu – zwiększa prawdopodobieństwo dotarcia do tego samego lub możliwie bliskiego efektu. A to pozwala na reprodukcję oraz kontynuację specyficznego stylu czy tematu ilustracji np. przy tworzeniu komiksu z AI.

W praktyce seed wpływa na wygenerowany obraz zgodnie z wewnętrzną logiką algorytmu Dall-e. Mimo że seed nie jest bezpośrednio używany do określenia zawartości obrazu w promptach, to jednak pełni kluczową funkcję w procesie generowania, gdzie jest wykorzystywany do realizacji opisu podanego przez użytkownika. Nie jest możliwe kontrolowanie seeda w sposób, który pozwalałby precyzyjnie przewidzieć końcowy wynik obrazu, jednak jego rola w reprodukcji i spójności stylistycznej jest tak istotna, jak rola zasad azotowych w reprodukcji DNA.

Gen_id i seed – kiedy stosować?

Choć z pozoru może Ci się wydawać, że obie funkcje działają podobnie, to jednak tak nie jest. Bo jak zawsze wszystko tkwi w szczegółach.

Gen_id jest kluczowym narzędziem, gdy chcesz się odwołać do konkretnego, wcześniej wygenerowanego obrazu. Używa się go, aby utrzymać spójność stylu i tematyki między kolejnymi dziełami.

Przykład: tworzysz serię ilustracji do albumu z kotami w podobnym stylu artystycznym. Podanie gen_id pierwszego obrazka pozwoli systemowi użyć tego obrazka jako referencji, co zapewnia jednolitość kolorystyki i stylu między ilustracjami.

Gen_id jest zatem niezwykle przydatny dla:

artystów,
ilustratorów,
grafików,
content creatorów, narrative designerów, czy autorów książek, którzy chcą przekazać, jak ma wyglądać ilustracja, obrazek, zdjęcie.

Korzystanie z gen_id jest wręcz pożądane w takich branżach kreatywnych, takich jak:

reklamowa,
edukacyjna,
artystyczna,
gamingowa,
wydawnicza.

W każdej z nich spójność wizualna jest kluczowa.

Z kolei seed używany jest do generowania obrazów, które mają być bardzo podobne do wcześniej stworzonych. Ta opcja jest użyteczna, gdy chcesz zaprezentować różne warianty tego samego tematu lub chcesz mieć większą kontrolę nad procesem generowania. Używając tego samego seeda, można wygenerować serię obrazów o spójnym stylu, co jest przydatne przy tworzeniu spójnych kolekcji grafik np. do komiksów, ilustrowanych powieści.

Gen_id stosujemy, gdy:	Seed stosujemy, gdy:
– modyfikujemy istniejący obraz,	– tworzymy serię podobnych obrazów,
– tworzymy kolejne, nowe obrazy w podobnym stylu lub z tą samą tematyką,	– eksperymentujemy z kilkoma wariantami tego samego obrazu,
– dzielimy się naszą pracą z innymi i chcemy, aby każdy miał dostęp do tego samego zbioru danych.	– odtwarzamy obraz, który wcześniej stworzyliśmy z użyciem tego samego seeda.

Zastosowanie gen_id i seed

Obie te techniki razem umożliwiają większą elastyczność i precyzję w tworzeniu cyfrowych dzieł sztuki, co jest nieocenione w kontekście rosnących możliwości i wymagań współczesnego designu i grafiki komputerowej.

Zmieniamy „nie da się”, w „da się”

Chcąc dalej poznać genetyczny kod swoich cyfrowych kreacji, warto poznać gen_id oraz seed niezwłocznie po wygenerowaniu właściwego obrazu. Przy formułowaniu nowego promptu, które ma na celu stworzenie kolejnego obrazu, warto skorzystać z tych danych.

Decydujące znaczenie dla ostatecznego rezultatu ma prompt, który jest formułowany. Większość cech definiujących obraz jest zakodowana w seed, co można porównać do genetycznego planu. Te informacje są niezbędne dla algorytmu GPT, aby mógł odpowiednio zinterpretować intencje twórcy, gdyż sam gen_id czy dostarczony obraz nie dostarczają pełnego kontekstu.

Pamiętaj! Gen_id oraz seed są specyficzne dla każdej konwersacji prowadzonej w Chat GPT i nie mogą być przenoszone między różnymi sesjami czy dzielone z innymi użytkownikami, nawet w ramach tego samego konta. Zaleca się zapisanie konwersacji, aby móc w każdej chwili powrócić do projektu.

Zbuduj dobry prompt

Każdy prompt powinien być tworzony z wykorzystaniem meta warstw, które ułatwiają narzędziom AI komunikację, a osiągane wyniki są zbliżone do pożądanych. O funkcjonowaniu meta warstw opowiada jeden z kursów Campus AI, do którego każdego zachęcam. Ja dziś wskażę tylko kilka takich warstw przy tworzeniu promptów do generowania obrazów.

Jak zapewne pamiętacie seed jest wartością, która uruchamia algorytm generujący obrazy, działającą podobnie do genów, które programują cechy biologiczne. Choć nie możemy bezpośrednio kontrolować seeda przez prompt, jego wpływ na losowo wybrane detale, kompozycję i styl obrazu jest znaczący. Jako użytkownicy musimy dostarczyć szczegółowy opis (promptu), który kieruje algorytmem, tak jak naukowiec, który precyzyjnie formułuje hipotezę do eksperymentu.

Poniżej kilka praktycznych wskazówek, jak maksymalnie wykorzystać wpływ Twojego promptu na generowany obraz:

szczegółowy opis tego, co chcesz zobaczyć – zamiast ogólników typu „kot” używamy opisu „szary kot z gatunku brytyjski krótkowłosy z niebieskimi oczami siedzi na parapecie”, definiując tym samym genetyczne cechy obrazu,
kompozycja obrazu – zamiast pisać, że „kot jest w pokoju” napisz, czy widziana scena jest z lotu ptaka, czy na wprost. A może nasz kot nie siedzi w centrum obrazu, a z lewej strony jest na pierwszym planie, resztę zaś stanowi tło. W ten sposób programujemy strukturę obrazu,
styl i technika artystyczna – każdy z nas preferuje określony styl artystyczny (np. realistyczny, impresjonistyczny, surrealistyczny, art noir) lub technikę (np. akwarela, olej, grafika cyfrowa, animacja, anime), dlatego warto to zawrzeć w opisie, manipulując tym samym „ekspresją genetyczną” generowanego obrazu,
kolorystyka – opisując preferowane kolory i odcienie, możemy wpłynąć na ogólną paletę barw obrazu,
panująca atmosfera i nastrój są równie ważne. Opisując nastrój, jaki ma wywołać obraz (np. spokojny, tajemniczy, radosny), dostarczamy algorytmowi wskazówek dotyczących wyboru elementów i kompozycji, kształtując „środowiskowe warunki”,
perspektywa ma znaczenie, dlatego ważne jest, aby opisać z jakiej ma być widziana scena, np. „widok z lotu ptaka” lub „perspektywa z poziomu oczu”, co jest równoznaczne z ustawieniem kąta generowanego obrazu,
jeśli na obrazie mają być przedstawione interakcje między postaciami lub elementami, musimy dokładnie je opisać.

Algorytm Dall-e może różnie interpretować te wskazówki w zależności od swojego wewnętrznego działania, na które wpływ ma seed. Im bardziej szczegółowy i precyzyjny jest opis, tym większa szansa na otrzymanie obrazu odpowiadającego oczekiwaniom.

Trening czyni mistrza

Skoro już widzimy, że się da tworzyć spójne grafiki w Dall-e, spróbujmy to zrobić razem. Tym razem skupimy się na praktycznych aspektach pracy z Dall-e. Zrozumienie, jak używać tych narzędzi samodzielnie i w tandemie, może znacznie zwiększyć zdolność do kreowania spójnych i estetycznie zadowalających obrazów, a nawet dzieł sztuki AI.

Zaczynamy! Wygenerujemy obraz, który posłuży nam do tego ćwiczenia. Pamiętajmy o prompcie, im bardziej szczegółowy, tym lepsze wyniki.

Jako że jestem fanką Drakuli i japońskiego anime, postaramy się stworzyć kilka kadrów z życia Hrabiego, który ma kota, psa i żywe roślinki w zamku. Gotowi?

Prompt:

Stwórz ilustrację w stylu japońskiego anime, przedstawiającą hrabiego Drakulę siedzącego w eleganckim, bogato zdobionym fotelu w stylu wiktoriańskim, umieszczonym w przestronnym, mrocznie oświetlonym salonie. Hrabia Drakula, o wyglądzie przystojnego, młodego mężczyzny z długimi, czarnymi włosami i przeszywającymi, czerwonymi oczami, czyta grubą, starożytną książkę. Jego twarz wyraża zadowolenie i lekką ironię. Na jego kolanach spoczywa kot brytyjski krótkowłosy o szarym futrze, którego Drakula głaszcze lewą ręką, a kot wygląda na zrelaksowanego i szczęśliwego. Obok fotela, na stylowym, drewnianym posłaniu śpi doberman o czarnym futrze, dopełniając scenę spokojem i bezpieczeństwem. W tle, na parapetach okiennych i półkach, widoczne są różnorodne rośliny doniczkowe, dodające koloru i życia do mrocznego wnętrza. Cała scena jest oświetlona złowieszczym, ale ciepłym światłem z kryształowego żyrandola, co tworzy nastrój komediowej grozy.

Wynik:

Podoba mi się wersja 1, ale najbliższa mojemu opisowi jest wersja 2. Wybierzemy 2. I zaczynamy modyfikacje.

Spójne obrazy z gen_id

Jak już wiemy, gen_id działa jako cyfrowy „odcisk palca” obrazu, umożliwiając identyfikację i odwołanie się do konkretnego dzieła wygenerowanego w przeszłości. Wykorzystanie samego gen_id pozwala na tworzenie nowych obrazów, które zachowują stylistyczne lub tematyczne cechy oryginału. Jest to szczególnie przydatne, gdy chcesz rozwijać serię obrazów, która musi być spójna wizualnie. Sprawdźmy!

Prompt:

Czy mógłbyś podać gen_id obrazu, który został ostatnio wygenerowany? Chciałbym użyć tego identyfikatora do stworzenia kolejnego obrazu, który będzie utrzymany w podobnym stylu i tematyce.

Wynik:

Oczywiście, wskazany wygenerowany obraz miał gen_id: 13FDKghg76Xrtmsd. Możesz użyć tego identyfikatora do stworzenia kolejnego obrazu w podobnym stylu i tematyce. Jakie dodatkowe szczegóły chciałbyś, aby uwzględniono w nowym obrazie?

Zauważ, że Dall-e sam pyta o zmiany elementów w obrazie.

Pamiętaj, jeśli znasz szczegóły dotyczące obrazu, które mogą pomóc w jego identyfikacji, warto je również zawrzeć, aby ułatwić odnalezienie odpowiedniego gen_id. Możesz generować wiele obrazów w jednej konwersacji. Dokładny opis może pomóc odnaleźć właściwy obraz.

Prompt:

Zmodyfikuj obraz o gen_id 13FDKghg76Xrtmsd. Chciałabym, aby ten sam Hrabia Drakula, który na oryginalnym obrazie siedzi w fotelu, teraz został umieszczony na plaży. Chcę, aby Hrabia Drakula był teraz przedstawiony siedzący na leżaku, noszący słomkowy kapelusz. Obok niego w koszu powinien siedzieć ten sam kot brytyjski kot, a doberman leżeć na piasku obok leżaków. Możesz też dodać tło plaży z widocznym morzem i niebem.

Wynik:

I proszę, nasz Hrabia Drakula udał się na długo wyczekiwany urlop. 🙂 Sądząc po pustym leżaku może z partnerką?

Spójne obrazy z seed

Jak już pamiętamy seed kontroluje wewnętrzne mechanizmy generatora obrazów, decydując o specyficznych aspektach takich jak szczegóły, kompozycja i styl. Używanie seed pozwala na reprodukcję podobnych lub niemal identycznych obrazów, co jest nieocenione w sytuacjach, gdzie potrzebujesz powtarzalności – na przykład przy tworzeniu różnych wersji tego samego motywu dla testów A/B w marketingu cyfrowym.

Prompt:

Czy możesz udostępnić seed użyty do wygenerowania ostatniego obrazu, który stworzyliśmy razem? Potrzebuję tej wartości, aby wygenerować kolejny obraz z zachowaniem spójnych cech stylu i kompozycji.

Wynik:

Seed, który został użyty, to 279030623.

Prompt:

Wykorzystując seed 279030623 zmodyfikuj ilustrację pozostawiając ten styl i kompozycję, ale zmieniając temat. Hrabia Dracula na uroczystej kolacji z kotem i dobermanem. Kot rzecz jasna siedzi przy stole w odświętnym kubraczku, a doberman leży na ziemi obok hrabiego Drakuli.

Wynik:

Nikt nie jest lepszą partnerką na kolację jak kot.

Idź na całość i połącz narzędzia!

Połączenie gen_id i seed otwiera nowe możliwości, pozwalając na tworzenie obrazów, które nie tylko zachowują charakterystyczne cechy wyjściowego dzieła (dzięki gen_id), ale również mają zapewnioną spójność detali i kompozycji (dzięki seed). To podejście jest idealne, gdy potrzebujesz rozwijać projekt, który musi być jednorodny zarówno w kontekście ogólnego stylu, jak i szczegółowych elementów.

Prompt:

Wykorzystując z obrazu o gen id: 13FDKghg76Xrtmsd postać Hrabiego Drakuli i jego kota oraz z  seed: 279030623 kompozycję obrazu pokaż, jak Hrabia bawi się z kotem na plaży. Ubiór hrabiego niech będzie bardziej wakacyjny, rozpięta koszula, jeansy.

Wynik:

I znów Hrabia udał się na wakacje. Tym razem w luźnym stylu.

Aby nauka nie poszła w las

Gen_id i seed to kluczowe narzędzia w procesie generowania obrazów, które znacząco usprawniają zarządzanie projektem i zapewniają spójność wizualną w różnych aplikacjach. Gen_id pozwala na jednoznaczne zidentyfikowanie konkretnego obrazu, co jest niezbędne przy tworzeniu serii ilustracji utrzymanych w jednolitym stylu. Z kolei seed umożliwia reprodukcję podobnych dzieł lub eksplorację różnych wariantów na podstawie tego samego zestawu instrukcji, co jest szczególnie przydatne w projektach, gdzie kluczowa jest ciągłość wizualna, takich jak ilustrowanie książek, tworzenie materiałów edukacyjnych, czy projektowanie graficzne dla mediów cyfrowych.

Używając tych narzędzi, mamy możliwość precyzyjnego kierowania procesem tworzenia grafik, co przekłada się na wyższą jakość i większą satysfakcję z finalnych produktów. Efektywność gen_id i seed polega na umiejętnym formułowaniu szczegółowych promptów, które precyzyjnie określają oczekiwania co do wyglądu obrazów. Dzięki temu Chat GPT i inne narzędzia AI mogą generować obrazy, które nie tylko są estetycznie zadowalające, ale również doskonale odpowiadają na specyficzne potrzeby użytkownika, wspierając spójność narracyjną i estetyczną w szerokim zakresie projektowania graficznego.

No i co? Dało się?

Joanna Neumann

Dziennikarka i specjalistka ds. contentu każdego rodzaju, entuzjastka AI. Po pracy pisze bajki dla dzieci i… kryminały.

Podziel się

AI, chatgpt, dall-e, gen_id, generowanie obrazów, obrazy AI

Podziel się

Może Cię zainteresować

Joanna Neumann

Przychodzi AI do urzędu

Każda akcja wywołuje reakcję. To zasada, która sprawdza się także w administracji publicznej. Kiedy urzędnicy podejmują decyzje, często korzystają z pomocy sztucznej inteligencji, co może prowadzić do dodatkowych błędów i pytań ze…

01.08
Joanna Neumann

Public Relations stawia na etykę we współpracy z AI

O tym, że AI wkroczyła we wszystkie dziedziny nikomu powtarzać nie trzeba. Ale o etycznych aspektach współpracy z AI trzeba wciąż przypominać.

05.07

Poznaj DNA obrazów i twórz spójne grafiki

Gen_id, a co to jest?

Nasionko obrazu, czyli jak działa seed

Gen_id i seed – kiedy stosować?

Zmieniamy „nie da się”, w „da się”

Zbuduj dobry prompt

Trening czyni mistrza

Spójne obrazy z gen_id

Spójne obrazy z seed

Idź na całość i połącz narzędzia!

Aby nauka nie poszła w las

Podziel się

Podziel się

Może Cię zainteresować

Przychodzi AI do urzędu

Public Relations stawia na etykę we współpracy z AI