Idź za głosem prompta

Minęły trzy miesiące. To bardzo dużo, gdy mówimy o sztucznej inteligencji i narzędziach, które działają dzięki niej. Ten kwartał był wyjątkowo owocny dla branży wideo AI.

Adrian Kilar

16 wrz 2024

Twórcy wideo mają co robić, ponieważ uzyskaliśmy dostęp do trzech poważnych generatorów ujęć, które mogą wspomóc filmowców, a nawet być początkiem nowej ery filmów wygenerowanych. Oto co trzeba wiedzieć, korzystając z nich.

LUMA: od skanowania do generowania ujęć

Na początek LUMA, która jeszcze niedawno była kojarzona z aplikacją do skanowania przestrzeni i obiektów w celu wygenerowania trójwymiarowych modeli. Następnie twórcy pokazali funkcję generowania figurek 3D z promptów, a w połowie czerwca zaskoczyli wszystkich, udostępniając Dream Machine – model multimodalny do generowania ujęć. Popularność tego narzędzia obciążyła procesory Lumy na tyle, że z 30 darmowych wygenerowań dziennie musieli obniżyć wartość do 10. I nadal trzeba się liczyć z tym, że czasami należy poczekać kilkadziesiąt minut, a nawet kilka godzin na wyrenderowanie ujęcia.

W Lumie mamy trzy opcje generowania:

Generowanie 5-sekundowego ujęcia z prompta z możliwością wydłużenia o kolejne 5 sekund, o rozdzielczości niewiele większej od 720p (1360 x 752).
Ożywienie zdjęcia JPG, JPEG lub PNG w formacie 16:9.
Połączenie dwóch zdjęć filmem, tzn. pierwszej i ostatniej klatki.

W darmowym pakiecie mamy zagwarantowane 30 wygenerowań na miesiąc, ale nie możemy ich wykorzystać do celów komercyjnych, a ponadto będą one posiadały obowiązkowy znak wodny. Jeśli chcemy zdjąć te ograniczenia, musimy zapłacić co najmniej 29,99 dolara, co dodatkowo daje nam 120 wygenerowań, czyli razem 150 na miesiąc, i to bez znakowania.

Dream Machine potrafi pozytywnie zaskoczyć, ale brakuje mu stabilności. Sam producent prosi o wyrozumiałość z uwagi na fakt, że technologia jest wciąż rozwijana, więc wyniki mogą się różnić. Na pewno jednak podniosła poprzeczkę i zdecydowanie lepiej wprawia w ruch obrazy wygenerowane w Midjourney niż Gen-2 lub PikaLabs, czego dowodem są umieszczane przez twórców fejkowe reklamy wideo samochodów, teledyski czy popularny ostatnio na Facebooku film Warszawski sen autorstwa Mariusza Zająca pokazujący przedwojenną Warszawę.

Aby zaoszczędzić czas i kredyty, warto zapoznać się z instrukcją tworzenia promptów:

Oto kilka wskazówek:

Bądź konkretny: opisz główny temat, scenerię i kluczowe elementy wideo.
Dodaj szczegóły: uwzględnij ważne informacje.
Skup się na emocjach lub atmosferze: scharakteryzuj nastrój.
Używaj prostego języka: unikaj skomplikowanych terminów i żargonu.

Przykład:

„Spokojna plaża o zachodzie słońca z falami delikatnie uderzającymi o brzeg i mewami latającymi po niebie”.

Ale uwaga! Trzeba napisać to w języku angielskim!

Gen-3 Alpha od RunwayML: doświadczenie i jakość

Nie trzeba było długo czekać – niecały tydzień po premierze Dream Machine RunwayML zaprezentował nową wersję swojego narzędzia, Gen-3 Alpha, która moim zdaniem jest lepsza od Dream Machine. Runway ma większe doświadczenie w trenowaniu modeli, ale trzeba pamiętać, że Dream Machine wyposażona jest w funkcje, których brakuje w Gen-3 Alpha, takie jak tworzenie animacji pomiędzy dwoma obrazami, co może się przydać do stworzenia humorystycznych animowanych memów. Natomiast mamy już od kilku dni rewelacyjną funkcję image-to-video, która ożywia obrazy podobnie jak w Klingu AI, ale trzeba wiedzieć, że musimy je przesłać lub „skadrować na miejscu” do formatu 16:9. Dodatkowo świetną nową funkcją, która pojawia się pod źródłowym obrazem, jest możliwość wybrania, czy wygenerowany przez AI materiał wideo ma się rozpocząć od oryginalnego przesłanego obrazu, czy na nim skończyć. Trikiem może być stworzenie obu wersji i połączenie ich w dowolnym programie do montażu, co da nam aż 20 sekund ożywionego zdjęcia-wideo. Osobiście uważam, że ta opcja, choć nie za każdym wygenerowaniem, jest już nam w stanie dać wartość publikacyjną bez tak zwanego krindżu.

Funkcja Image-to-Video jest obecna w Gen-2, więc gdy czytacie ten tekst, być może została już dodana do Gen-3 Alpha.

Gen-3 Alpha to jedno z wielu narzędzi na platformie Runway, oferującej różne funkcje dla twórców wideo. Runway wypracował sobie poważną pozycję na rynku, więc nie oferuje darmowych odnawialnych kredytów do wykorzystania w Gen-3 Alpha. Darmowe konto daje 125 kredytów, które pozwalają na generowanie wideo tylko w poprzedniej wersji Gen-2. Aby mieć dostęp do Gen-3 Alpha, musimy zapłacić 15 dolarów, co daje 625 kredytów i przekłada się na 12 filmów o długości 5 sekund lub 6 filmów o długości 10 sekund.

Chociaż Gen-3 Alpha oferuje najlepszą jakość na rynku, rezultat może być nie do końca satysfakcjonujący. Warto więc zapoznać się z przewodnikiem tworzenia promptów, aby uzyskać spójne wyniki. Gen-3 Alpha ma nieskończony potencjał, by ożywić artystyczne wizje użytkowników, kluczem jest stworzenie mocnego promptu, który odpowiednio opisuje scenę. Prompty są najbardziej skuteczne, gdy mają jasną strukturę, która dzieli szczegóły dotyczące sceny, tematu i ruchu kamery na oddzielne sekcje w następujący sposób:

[ruch kamery]: [opis sceny]. [dodatkowe szczegóły]

Przykładowy prompt:

„Low-angle static camera: The camera is angled upwards at a woman dressed in an orange outfit, standing in a tropical rainforest with colorful flora. The dramatic sky is cloudy and grey.” Ale uwaga, musimy pisać w języku angielskim. Ogromną zaletą Gen-3 Alpha jest szybkość generowania. Nie zdarzyło mi się jeszcze, abym czekał dłużej niż 1,5 minuty na 5-sekundowe ujęcie.

Kling AI: Chińska rewolucja AI dostępna już w Europie

Kling AI to nasz ostatni bohater, który przed premierą światową pojawiał się w sieci jako chiński konkurent SORY, wypuszczony tylko na rynek chiński. Od końca lipca jest dostępny dla reszty świata. Gdy to piszę, nie ma jeszcze ustalonych cen za subskrypcję, ale otrzymujemy darmowe 66 kredytów, które pozwalają na wygenerowanie 6 filmów z promptów o długości 5 sekund lub ożywienie obrazu statycznego.

Model Kling AI był uczony głównie na azjatyckich filmach, co można wyczuć w uzyskanych efektach. Zazwyczaj mamy też wynik w zwolnionym tempie, ale z lepszą moim zdaniem rozpiętością tonalną niż Gen-3 i mniejszym charakterystycznym malowniczym klimacie w trybie high performance. Niestety rozdzielczość, prawie taka sama jak w Gen-3 i Dream Machine, nie przekłada się na detale, które czasami pozostawiają wiele do życzenia. Tryb high quality, oferujący więcej szczegółów, w chwili, której to piszę, jeszcze nie jest dostępny, tak samo jak 10-sekundowe filmy. Ale samo pokazanie tych opcji daje duże nadzieje na lepsze rezultaty w przyszłości. Największym atutem Kling AI jest możliwość interakcji osób ze statycznego obrazu.

Sam byłem w szoku, gdy wygenerował mi film, w którym Kamala Harris całuje się z Donaldem Trumpem.

Poszedłem o krok dalej i wskrzesiłem swojego pradziadka. Nie udało się to na początku z szerokim kadrem, ale ostatecznie pradziadek Władysław i ja na zdjęciu nawiązaliśmy kontakt wzrokowy i wymieniliśmy zawstydzone uśmiechy.

Ta technologia daje do myślenia, jak łatwo dziś stworzyć manipulację, ale jednocześnie wnosi nową jakość albumów i wykreowanych wspomnień AI. Producent nie daje instrukcji promptowania, ale z doświadczenia wiem, że dobrze trzymać się szablonu Gen-3 Alpha.

Podsumowując, doczekaliśmy się trzech multimodalnych modeli do generowania ujęć AI, które otwierają drogę dla kreatywnych twórców. Chociaż jakość jest coraz lepsza, elementy sztuczności, takie jak ruch czy rozdzielczość, zdradzają ingerencję AI i choć mogą trafić się perełki wideo zaskakujące i cieszące oko, to ze swobodą tworzenia ujęć hiperrealistycznych nadal musimy poczekać na wyższe modele lub długo zapowiadane przez OpenAI narzędzie SORA.

Aktualnie natomiast, jeśli chcesz ożywić obraz z Midjourney lub prawdziwe zdjęcie, najlepiej zrobi to LUMA z Dream Machine. Jeśli potrzebujesz wygenerować cały teledysk, reklamę czy wideo jako przebitki, a Twoi widzowie są świadomi jakości AI, wybierz Gen-3 Alpha, który zrobi to najszybciej i najdokładniej (średnio w około minutę, u konkurencji aktualnie czekamy przeważnie kilkadziesiąt minut, a czasami kilka godzin).

Chcesz zaoszczędzić i potrzebujesz treść na social media? Wybierz Kling AI, który najlepiej stworzy interakcję przedmiotów i postaci na zdjęciach i poprawnie wygeneruje wideo przedstawiające naturę i zwierzęta.

Portale internetowe często z entuzjazmem używają stwierdzenia „sztuczna inteligencja wygenerowała…” czy „poprosił sztuczną inteligencję, aby stworzyła film”, tymczasem w przypadku tworzenia wideo nie istnieje jeszcze narzędzie, które stworzy jakościowy film jednym poleceniem. Pomysł, pisanie promptów, wybór ujęć, udźwiękowienie i montaż ciągle leży po stronie człowieka i choć sztucznej inteligencji wiele osób przypisuje nadludzkie umiejętności, to AI nie jest dżinem w butelce, ale potężnym narzędziem w rękach twórców.

Z niecierpliwością czekam na to, co przyniesie przyszłość i czy SORA przerośnie swoich konkurentów, stając się standardem w tej nowej, ekscytującej branży treści wideo wyprodukowanych przy udziale AI. Mam nadzieję, że podzielacie mój entuzjazm i jesteście gotowi na dalszą eksplorację i naukę nowych narzędzi. Jeśli tak, to zapraszam za kwartał. Bardzo jestem ciekawy, o czym wtedy będziemy mogli rozmawiać.

Adrian Kilar

Video content creator, entuzjasta i praktyk AI. Z wykształcenia filozof

Podziel się

poradnik, promptowanie, tutorial

Podziel się

Może Cię zainteresować

Adrian Kilar

Dlaczego trenować model twarzy?

Zorganizowanie profesjonalnej sesji zdjęciowej pochłania czas i pieniądze. Potrzeba studia, fotografa,oświetlenia, czasem również makijażu i garderoby. Dodatkowo niektóre sesje zdjęciowe mogą być niebezpieczne dla zdrowia, życia albo dla środowiska.

17.12
Adrian Kilar

Narzędzia AI dla twórców internetowych

to swego rodzaju przepustka do robienia więcej, inaczej i ciekawiej. Oto pięć narzędzi, którymi warto się zainteresować ze względu na ich możliwości.

29.08

Idź za głosem prompta

LUMA: od skanowania do generowania ujęć

Gen-3 Alpha od RunwayML: doświadczenie i jakość

Kling AI: Chińska rewolucja AI dostępna już w Europie

Podziel się

Podziel się

Może Cię zainteresować

Dlaczego trenować model twarzy?

Narzędzia AI dla twórców internetowych