{"id":3425,"date":"2024-08-29T17:01:26","date_gmt":"2024-08-29T17:01:26","guid":{"rendered":"https:\/\/haimagazine.com\/?p=3425"},"modified":"2025-06-26T14:09:12","modified_gmt":"2025-06-26T12:09:12","slug":"jak-budowac-efektywne-modele-multimodalne","status":"publish","type":"post","link":"https:\/\/haimagazine.com\/pl\/hai-magazine\/jak-budowac-efektywne-modele-multimodalne\/","title":{"rendered":"\ud83d\udd12 Jak budowa\u0107 efektywne modele multimodalne?"},"content":{"rendered":"<blockquote class=\"wp-block-quote is-layout-flow wp-block-quote-is-layout-flow\"><p><em>Ten artyku\u0142 jest cz\u0119\u015bci\u0105 serii &#8222;T\u0142umaczymy! Naukowe \u015bwie\u017cynki&#8221;, do kt\u00f3rej zapraszamy ekspert\u00f3w, by dla nas obja\u015bniali aktualne publikacje naukowe z dziedziny sztucznej inteligencji. <\/em><\/p><\/blockquote><p>W ramach swojej pracy <em>&#8222;<a href=\"https:\/\/arxiv.org\/pdf\/2403.09611\" target=\"_blank\" rel=\"noopener\">MM1: Methods, Analysis &amp; Insights from Multimodal LLM Pre-training<\/a>&#8222;<\/em> naukowcy z Apple\u2019a postanowili przygotowa\u0107 \u201eprzepis na sukces\u201d, czyli opracowa\u0107 wskaz\u00f3wki, jak wytrenowa\u0107 modele, aby odpowiednio analizowa\u0142y wielomodalne wej\u015bcia i prawid\u0142owo wykonywa\u0142y instrukcje. Skupili si\u0119 przy tym na dw\u00f3ch aspektach: na architekturze modeli oraz danych treningowych. Przyjrzyjmy si\u0119 bli\u017cej temu, co opisali i co z tego wynika.<\/p><figure class=\"wp-block-image alignfull size-large\"><img loading=\"lazy\" decoding=\"async\" width=\"828\" height=\"1024\" src=\"https:\/\/haimagazine.com\/wp-content\/uploads\/2024\/08\/Screenshot-2024-08-08-at-15.41.26-828x1024.png\" alt=\"\" class=\"wp-image-3426\" srcset=\"https:\/\/haimagazine.com\/wp-content\/uploads\/2024\/08\/Screenshot-2024-08-08-at-15.41.26-828x1024.png 828w, https:\/\/haimagazine.com\/wp-content\/uploads\/2024\/08\/Screenshot-2024-08-08-at-15.41.26-242x300.png 242w, https:\/\/haimagazine.com\/wp-content\/uploads\/2024\/08\/Screenshot-2024-08-08-at-15.41.26-768x950.png 768w, https:\/\/haimagazine.com\/wp-content\/uploads\/2024\/08\/Screenshot-2024-08-08-at-15.41.26-600x742.png 600w, https:\/\/haimagazine.com\/wp-content\/uploads\/2024\/08\/Screenshot-2024-08-08-at-15.41.26.png 1138w\" sizes=\"auto, (max-width: 828px) 100vw, 828px\" \/><\/figure><h3 class=\"wp-block-heading\"><strong>Architektura MLLM<\/strong><\/h3><p>Architektura badana w artykule bazuje na trzech komponentach: du\u017cy model j\u0119zykowy (ang. <em>Large Language Model \u2013 <\/em>LLM), enkoder wizyjny oraz adapter wizja\u2013tekst.<\/p><p><strong>Jak to dzia\u0142a?<\/strong><\/p><p>Na wej\u015bciu MLLM pojawia si\u0119 tekst i obraz. Wektor reprezentuj\u0105cy obraz, po przej\u015bciu przez adapter wizja\u2013tekst, jest \u0142\u0105czony z reprezentacj\u0105 tekstu. Aby oddzieli\u0107 tokeny wizyjne od tekstowych, zazwyczaj dodawane s\u0105 specjalne tokeny rozpoczynaj\u0105ce i ko\u0144cz\u0105ce, np. &lt;img&gt; oraz &lt;\/img&gt;, kt\u00f3re wskazuj\u0105 na pocz\u0105tek i koniec reprezentacji obrazu. Dzi\u0119ki temu obrazy mog\u0105 by\u0107 przeplatane na zmian\u0119 z tekstem na poziomie wektor\u00f3w reprezentacji. Taki ci\u0105g token\u00f3w jest przekazywany dalej do deko- dera du\u017cego modelu j\u0119zykowego. Wyj\u015bciem jest tekstowa odpowied\u017a na zadane wej\u015bcie.<\/p><p>Celem komponentu adapter wizja\u2013tekst (ang. <em>Vision-Language Connector<\/em>) jest zamiana wizualnej reprezentacji obrazu na reprezentacj\u0119 akceptowan\u0105 przez LLM-y. Na tym etapie chcemy po\u0142\u0105czy\u0107 ze sob\u0105 wektor reprezentuj\u0105cy obraz oraz wektor reprezentuj\u0105cy tekst wej\u015bciowy. Zatem na wej\u015bciu adaptera mamy to, co wysz\u0142o z modelu wizyjnego (enkodera), a na wyj\u015bciu reprezentacj\u0119 j\u0119zykow\u0105.<\/p><p>W artykule autorzy zastosowali transformer wizyjny jako enkoder (ang. <em>Vision Transformer \u2013 <\/em>ViT).<\/p><figure class=\"wp-block-image alignfull size-large\"><img loading=\"lazy\" decoding=\"async\" width=\"1024\" height=\"285\" src=\"https:\/\/haimagazine.com\/wp-content\/uploads\/2024\/08\/Screenshot-2024-08-08-at-15.42.04-1024x285.png\" alt=\"\" class=\"wp-image-3428\" srcset=\"https:\/\/haimagazine.com\/wp-content\/uploads\/2024\/08\/Screenshot-2024-08-08-at-15.42.04-1024x285.png 1024w, https:\/\/haimagazine.com\/wp-content\/uploads\/2024\/08\/Screenshot-2024-08-08-at-15.42.04-300x84.png 300w, https:\/\/haimagazine.com\/wp-content\/uploads\/2024\/08\/Screenshot-2024-08-08-at-15.42.04-768x214.png 768w, https:\/\/haimagazine.com\/wp-content\/uploads\/2024\/08\/Screenshot-2024-08-08-at-15.42.04-600x167.png 600w, https:\/\/haimagazine.com\/wp-content\/uploads\/2024\/08\/Screenshot-2024-08-08-at-15.42.04.png 1214w\" sizes=\"auto, (max-width: 1024px) 100vw, 1024px\" \/><\/figure><h4 class=\"wp-block-heading\"><strong>Transformery wizyjne<\/strong><\/h4><p>Transformery wizyjne dziel\u0105 obraz na mniejsze fragmenty (<em>patches<\/em>), a nast\u0119pnie przekszta\u0142caj\u0105 te fragmenty w wektory (<em>embeddings<\/em>), kt\u00f3re s\u0105 reprezentacj\u0105 numeryczn\u0105 zawarto\u015bci obrazu. Zatem w zale\u017cno\u015bci od ilo\u015bci fragment\u00f3w obraz jest przekszta\u0142cany w zestaw wektor\u00f3w u\u0142o\u017conych w swoist\u0105 siatk\u0119, odpowiadaj\u0105cych r\u00f3\u017cnym fragmentom obrazu. Ka\u017cdy z tych fragment\u00f3w stanie si\u0119 jednym tokenem. Tokeny wizyjne powstaj\u0105 w troch\u0119 inny spos\u00f3b ni\u017c tokeny tekstowe, kt\u00f3re znamy z przetwarzania j\u0119zyka naturalnego (ang. <em>Natural Language Processing<\/em>, NLP). Przyk\u0142adowo, je\u015bli obraz jest podzielony na fragmenty o wielko\u015bci 16 \u00d7 16 pikseli, to ka\u017cdy z tych fragment\u00f3w jest zamieniany na wektor (zazwyczaj o d\u0142ugo\u015bci 768), kt\u00f3ry jest nast\u0119pnie przekszta\u0142cany w wielowymia- row\u0105 reprezentacj\u0119 tokena. Oznacza to, \u017ce <strong>w przeciwie\u0144stwie do LLM-\u00f3w, w kt\u00f3rych tokeny s\u0105 reprezentowane przez liczby ca\u0142kowite (gdzie ka\u017cdy token reprezentuje unikatowe s\u0142owo lub fragment s\u0142owa z ustalonego wcze\u015bniej s\u0142ownika), tokeny wizyjne s\u0105 wektorami wielowymiarowymi.<\/strong><\/p><h4 class=\"wp-block-heading\"><strong>Adapter wizja\u2013tekst<\/strong><\/h4><p>Adapter wizja\u2013tekst rzutuje reprezentacje fragment\u00f3w obrazu na przestrze\u0144 wektor\u00f3w s\u0142\u00f3w, kt\u00f3re s\u0105 u\u017cywane przez modele j\u0119zykowe. Poniewa\u017c modele j\u0119zykowe dzia\u0142aj\u0105 na danych sekwencyjnych (wej\u015bcie LLM to sekwencja token\u00f3w), to konieczne jest przekszta\u0142cenie uk\u0142adu wektor\u00f3w obrazu na format sekwencyjny.<\/p><p>Tutaj pojawia si\u0119 wyzwanie: szczeg\u00f3\u0142owo\u015b\u0107 reprezentacji obrazu jest po\u017c\u0105dana, jednak wymaga to zwi\u0119kszenia liczby token\u00f3w dla fragment\u00f3w obrazu. To z kolei powoduje wzrost wymaga\u0144 obliczeniowych. Oznacza to, \u017ce nale\u017cy zadba\u0107 o kompromis pomi\u0119dzy dok\u0142adno\u015bci\u0105 reprezentacji obrazu a ograniczeniami zasob\u00f3w obliczeniowych.<\/p><p>Autorzy artyku\u0142u zaproponowali u\u017cywanie 64 (8 x 8) i 144 (12 x 12) token\u00f3w do reprezentacji obrazu oraz przetestowanie rozdzielczo\u015bci 224 i 336 pikseli. Poniewa\u017c typowa reprezentacja obrazu jest znacznie wi\u0119ksza, zaproponowano kilka metod przekszta\u0142cania, w tym: <em>Average Pooling<\/em>, <em>Attention Pooling <\/em>oraz <em>Convolutional Mapping<\/em>.<\/p><figure class=\"wp-block-image alignfull size-large\"><img loading=\"lazy\" decoding=\"async\" width=\"487\" height=\"1024\" src=\"https:\/\/haimagazine.com\/wp-content\/uploads\/2024\/08\/Screenshot-2024-08-08-at-15.42.50-487x1024.png\" alt=\"\" class=\"wp-image-3430\" srcset=\"https:\/\/haimagazine.com\/wp-content\/uploads\/2024\/08\/Screenshot-2024-08-08-at-15.42.50-487x1024.png 487w, https:\/\/haimagazine.com\/wp-content\/uploads\/2024\/08\/Screenshot-2024-08-08-at-15.42.50-143x300.png 143w, https:\/\/haimagazine.com\/wp-content\/uploads\/2024\/08\/Screenshot-2024-08-08-at-15.42.50-600x1261.png 600w, https:\/\/haimagazine.com\/wp-content\/uploads\/2024\/08\/Screenshot-2024-08-08-at-15.42.50.png 606w\" sizes=\"auto, (max-width: 487px) 100vw, 487px\" \/><\/figure><p>W celu uproszczenia por\u00f3wna\u0144 autorzy wprowadzili metametryk\u0119 (\u015arednia SFT \u2013 <em>Supervised Fine-Tuning<\/em>). Wyniki by\u0142y normalizowanie dla ka\u017cdego zadania, poprzez dzielenie wyniku przez wynik bazowy (ang. <em>baseline<\/em>).<\/p><p>Wynik bazowy pochodzi\u0142 z modelu MM1, trenowanego na obrazach o rozdzielczo\u015bci 224 \u00d7 224 pikseli, 64 tokenach, z metod\u0105 przekszta\u0142cenia <em>Convolutional Mapping<\/em>. Nast\u0119pnie z uzyskanych znormalizowanych wynik\u00f3w obliczyli \u015bredni\u0105, kt\u00f3r\u0105 nazwali miar\u0105 meta\u015bredni\u0105 SFT. Dzi\u0119ki temu ka\u017cda metryka jest ustandaryzowana wzgl\u0119dem wyniku bazowego, co pozwala na \u0142atwiejsze por\u00f3wnanie r\u00f3\u017cnych metod i zestaw\u00f3w danych. Jak wida\u0107 na wykresie, dzi\u0119ki uproszczonej metamiarze mo\u017cemy zauwa\u017cy\u0107 wysoki wzrost z 103.2 punkta do 106.2 dla <em>Attention Pooling <\/em>przy zmianie z 64 na 144 token\u00f3w, co wskazuje na zalety zwi\u0119kszania liczby token\u00f3w przy tej konfiguracji. Z kolei taka sama zmiana liczby token\u00f3w dla <em>Average Pooling <\/em>przy drobnej zmianie jest zupe\u0142nie nieistotna (ze 105.1 na 105.2).<\/p><p>Podsumowuj\u0105c, eksperymenty pokaza\u0142y, \u017ce pomimo i\u017c <em>Convolutional Mapping <\/em>daje najlepsze wyniki, to wyb\u00f3r metody przekszta\u0142cania wektor\u00f3w nie ma na nie znacznego wp\u0142ywu. Najistotniejszy okaza\u0142 si\u0119 odpowiedni dob\u00f3r liczby token\u00f3w wizyjnych oraz rozdzielczo\u015b\u0107 obrazu: zwyci\u0119\u017cy\u0142a najwy\u017csza rozdzielczo\u015b\u0107 (336 px) oraz najwi\u0119ksza liczba token\u00f3w (144).<\/p><h3 class=\"wp-block-heading\"><strong>Dane<\/strong><\/h3><p>To, jak wa\u017cne s\u0105 dane w trenowaniu modeli, wie ka\u017cdy praktyk i teoretyk, kt\u00f3ry zajmowa\u0142 si\u0119 uczeniem maszynowym. Naukowcy z Apple\u2019a postanowili zbada\u0107, jakie typy danych maj\u0105 najwi\u0119kszy wp\u0142yw na jako\u015b\u0107 generacji modeli.<\/p><p>W badaniu przeanalizowano nast\u0119puj\u0105ce typy danych (po dok\u0142adny zestaw analizowanych zbior\u00f3w odsy\u0142am do za\u0142\u0105cznika A w oryginalnym artykule):<\/p><figure class=\"wp-block-image alignfull size-large\"><img loading=\"lazy\" decoding=\"async\" width=\"1024\" height=\"371\" src=\"https:\/\/haimagazine.com\/wp-content\/uploads\/2024\/08\/Screenshot-2024-08-08-at-15.36.53-2-1024x371.png\" alt=\"\" class=\"wp-image-3434\" srcset=\"https:\/\/haimagazine.com\/wp-content\/uploads\/2024\/08\/Screenshot-2024-08-08-at-15.36.53-2-1024x371.png 1024w, https:\/\/haimagazine.com\/wp-content\/uploads\/2024\/08\/Screenshot-2024-08-08-at-15.36.53-2-300x109.png 300w, https:\/\/haimagazine.com\/wp-content\/uploads\/2024\/08\/Screenshot-2024-08-08-at-15.36.53-2-768x278.png 768w, https:\/\/haimagazine.com\/wp-content\/uploads\/2024\/08\/Screenshot-2024-08-08-at-15.36.53-2-1536x557.png 1536w, https:\/\/haimagazine.com\/wp-content\/uploads\/2024\/08\/Screenshot-2024-08-08-at-15.36.53-2-2048x742.png 2048w, https:\/\/haimagazine.com\/wp-content\/uploads\/2024\/08\/Screenshot-2024-08-08-at-15.36.53-2-600x217.png 600w\" sizes=\"auto, (max-width: 1024px) 100vw, 1024px\" \/><\/figure><p>Nast\u0119pnie zastosowali metod\u0119 ablacji (ang. <em>ablation study<\/em>), czyli <strong>technik\u0119 badawcz\u0105, kt\u00f3ra polega na usuwaniu lub zmianie wybranych cz\u0119\u015bci systemu i obserwacji, jak taka zmiana wp\u0142ywa na jego dzia\u0142anie<\/strong>. W artykule wykorzystano ablacj\u0119 danych, a dok\u0142adniej sprawdzono, co si\u0119 dzieje, gdy okre\u015blone typy danych s\u0105 wykluczane lub dodawane do procesu uczenia. Proces ablacji pomaga m.in. zrozumie\u0107, kt\u00f3re elementy s\u0105 krytyczne dla osi\u0105gni\u0119cia wysokiej dok\u0142adno\u015bci.<\/p><p>Uzyskane wyniki \u015bredniej SFT w stosunku do proporcji danych treningowych przedstawiono na rysunku 2.<\/p><p><strong>W ramach badania ablacji autorzy pokazali, \u017ce liczy si\u0119 r\u00f3\u017cnorodno\u015b\u0107, ilo\u015b\u0107 i jako\u015b\u0107 danych.<\/strong><\/p><ul class=\"wp-block-list\"><li><strong>R\u00f3\u017cnorodno\u015b\u0107:<\/strong><\/li><\/ul><p>Badania pokaza\u0142y \u2013 co nie by\u0142o specjalnym zasko- czeniem \u2013 \u017ce r\u00f3\u017cnorodno\u015b\u0107 danych pozytywnie wp\u0142ywa na trening i p\u00f3\u017aniejsz\u0105 wydajno\u015b\u0107 modelu. Autorzy podkre\u015blili, \u017ce najlepsze wyniki otrzymali dla mieszanki: 45% danych mieszanych, 45% danych opisowych i 10% dokument\u00f3w z samym tekstem.<\/p><ul class=\"wp-block-list\"><li><strong>Ilo\u015b\u0107:<\/strong><\/li><\/ul><p>Zdobycie wysokiej jako\u015bci danych w ogromnych ilo\u015bciach jest trudne. Badacze wykorzystali wi\u0119c do treningu r\u00f3wnie\u017c dane syntetyczne (automatycznie wygenerowane opisy obraz\u00f3w).<\/p><ul class=\"wp-block-list\"><li><strong>Jako\u015b\u0107:<\/strong><\/li><\/ul><p>Trening na obrazach o wysokiej rozdzielczo\u015bci dawa\u0142 lepsze wyniki.<\/p><figure class=\"wp-block-image alignfull size-large\"><img loading=\"lazy\" decoding=\"async\" width=\"1024\" height=\"906\" src=\"https:\/\/haimagazine.com\/wp-content\/uploads\/2024\/08\/Screenshot-2024-08-08-at-15.44.06-1024x906.png\" alt=\"\" class=\"wp-image-3436\" srcset=\"https:\/\/haimagazine.com\/wp-content\/uploads\/2024\/08\/Screenshot-2024-08-08-at-15.44.06-1024x906.png 1024w, https:\/\/haimagazine.com\/wp-content\/uploads\/2024\/08\/Screenshot-2024-08-08-at-15.44.06-300x265.png 300w, https:\/\/haimagazine.com\/wp-content\/uploads\/2024\/08\/Screenshot-2024-08-08-at-15.44.06-768x679.png 768w, https:\/\/haimagazine.com\/wp-content\/uploads\/2024\/08\/Screenshot-2024-08-08-at-15.44.06-600x531.png 600w, https:\/\/haimagazine.com\/wp-content\/uploads\/2024\/08\/Screenshot-2024-08-08-at-15.44.06.png 1126w\" sizes=\"auto, (max-width: 1024px) 100vw, 1024px\" \/><\/figure><h3 class=\"wp-block-heading\"><strong>Wyniki i spostrze\u017cenia<\/strong><\/h3><p>Autorzy artyku\u0142u zaprezentowali ca\u0142\u0105 rodzin\u0119 modeli w rozmiarach od 3B, 7B do 30B parametr\u00f3w oraz modele MoE (Mieszanki Ekspert\u00f3w, ang. <em>Mixture of Experts<\/em>), kt\u00f3re by\u0142y por\u00f3wnywane w kategoriach ich wielko\u015bci (ilo\u015bci parametr\u00f3w). <strong>W modelach MM1<\/strong>, w adapterach wizja\u2013tekst, <strong>zastosowano metod\u0119 przekszta\u0142cenia <\/strong><strong><em>Convolutional Mapping<\/em><\/strong>.<\/p><p>Warto te\u017c zauwa\u017cy\u0107, \u017ce rozdzielczo\u015b\u0107 obrazu wej\u015bciowego mia\u0142a bardzo du\u017cy wp\u0142yw na wyniki, wi\u0119kszy nawet ni\u017c sam rozmiar ko\u0144cowego modelu. Ciekawym spostrze\u017ceniem by\u0142o tak\u017ce znalezienie korelacji mi\u0119dzy mro\u017ceniem wag enkodera wizyjnego a jego rozdzielczo\u015bci\u0105. Wyniki pokaza\u0142y, \u017ce przy ni\u017cszych rozdzielczo\u015bciach obrazu mro\u017cenie enkodera wp\u0142ywa\u0142o pozytywnie na wyniki, za to przy wy\u017cszych rozdzielczo\u015bciach (np. 1344 piksele) odmro\u017cenie warstw i trenowanie enkodera dawa\u0142o lepsze rezultaty.<\/p><p>Badacze wykazali r\u00f3wnie\u017c, \u017ce wa\u017cne jest zebranie zr\u00f3wnowa\u017conego i zr\u00f3\u017cnicowanego zbioru danych. Po\u0142\u0105czenie danych zmieszanych, opisowych i tekstowych w proporcjach odpowiednio 5:5:1 zwi\u0119ksza szanse na poprawny trening, a dane syntetyczne to do\u015b\u0107 prosty spos\u00f3b na popraw\u0119 wynik\u00f3w.<\/p><h4 class=\"wp-block-heading\"><strong>Przepis na sukces?<\/strong><\/h4><p>Co prawda przedstawione wnioski nie s\u0105 zaskakuj\u0105ce, ale z pewno\u015bci\u0105 zaoszcz\u0119dz\u0105 licznym badaczom czas na potwierdzanie tych zale\u017cno\u015bci, tym bardziej bior\u0105c pod uwag\u0119, jakich zasob\u00f3w \u2013 liczonych w sprz\u0119cie i danych \u2013 trzeba, by samodzielnie testowa\u0107 podane konfiguracje.<\/p><p>Z wynik\u00f3w mo\u017cna te\u017c wysun\u0105\u0107 dodatkowe wnioski:<\/p><p>MM1 radzi sobie wy\u015bmienicie w przypadku pyta\u0144 wizyjnych (VQA), a najmniejsza wersja MM1-3B-Chat pobi\u0142a nawet oba modele Gemini i GPT\u20134V. Wysokie wyniki widzimy te\u017c na zbiorach LLaVA, kt\u00f3re pokazuj\u0105, \u017ce rodzina MM1 dobrze radzi sobie ze z\u0142o\u017conymi zadaniami na rzeczywistych zdj\u0119ciach. Ponadto MM1-30B-Chat zdecydowanie zwyci\u0119\u017ca w rankingu MME, kt\u00f3re bada m.in. optyczne rozpoznawanie tekstu, rozpoznawanie pozycji, czy te\u017c zliczanie przedmiot\u00f3w.<\/p><p>Wyniki na zbiorze POPE, kt\u00f3ry bada halucynacje (wykrycie niestniej\u0105cego obiektu na zdj\u0119ciu), s\u0105 zbli\u017cone na wszystkich modelach. Podobnie sytuacja wygl\u0105da dla zbioru SEED (pytania wielokrotnego wyboru).<\/p><p>Mo\u017cna zauwa\u017cy\u0107 pole do poprawy w zadaniach MathV, kt\u00f3re badaj\u0105 zdolno\u015bci percepcji, rozwi\u0105- zywania z\u0142o\u017conych problem\u00f3w matematycznych i analitycznych. W tym zestawieniu wygrywa model LLaVA-NeXT-34B. Ponadto MM1 ponownie prze- grywa z LLaV\u0104 w zadaniach wymagaj\u0105cych wiedzy akademickiej (MMU). Tym razem o spory, prawie dziesi\u0119ciopunktowy margines.<\/p><figure class=\"wp-block-image alignfull size-large\"><img loading=\"lazy\" decoding=\"async\" width=\"1024\" height=\"320\" src=\"https:\/\/haimagazine.com\/wp-content\/uploads\/2024\/08\/Screenshot-2024-08-08-at-15.46.58-1024x320.png\" alt=\"\" class=\"wp-image-3438\" srcset=\"https:\/\/haimagazine.com\/wp-content\/uploads\/2024\/08\/Screenshot-2024-08-08-at-15.46.58-1024x320.png 1024w, https:\/\/haimagazine.com\/wp-content\/uploads\/2024\/08\/Screenshot-2024-08-08-at-15.46.58-300x94.png 300w, https:\/\/haimagazine.com\/wp-content\/uploads\/2024\/08\/Screenshot-2024-08-08-at-15.46.58-768x240.png 768w, https:\/\/haimagazine.com\/wp-content\/uploads\/2024\/08\/Screenshot-2024-08-08-at-15.46.58-600x188.png 600w, https:\/\/haimagazine.com\/wp-content\/uploads\/2024\/08\/Screenshot-2024-08-08-at-15.46.58.png 1062w\" sizes=\"auto, (max-width: 1024px) 100vw, 1024px\" \/><figcaption class=\"wp-element-caption\">Zagregowane wyniki z artyku\u0142u. Z pe\u0142nymi wynikami mo\u017cna si\u0119 zapozna\u0107 w oryginalnym artykule w tabeli nr 4, na str. 14 oraz tabeli nr 6, na str. 28. <\/figcaption><\/figure>","protected":false},"excerpt":{"rendered":"<p>Rozw\u00f3j du\u017cych modeli j\u0119zykowych poci\u0105gn\u0105\u0142 za sob\u0105 rozw\u00f3j modeli wielomodalnych (zwanych te\u017c multimodalnymi), czyli takich kt\u00f3re na wej\u015bciu mog\u0105 przyj\u0105\u0107 wi\u0119cej ni\u017c jeden typ danych (modalno\u015b\u0107). W tym przypadku, omawiamy mo\u017cliwo\u015b\u0107 analizy obrazu i tekstu jednocze\u015bnie.<\/p>\n","protected":false},"author":44,"featured_media":3440,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"_acf_changed":false,"rank_math_lock_modified_date":false,"footnotes":""},"categories":[402,763,754,403],"tags":[222,193,221,225,224],"popular":[],"difficulty-level":[37],"ppma_author":[372],"class_list":["post-3425","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-hai-magazine","category-ai_praktyka","category-hai_premium","category-hai-magazine-1","tag-dekoder","tag-llm-2","tag-mlm","tag-multimodal","tag-wizja-tekst","difficulty-level-hard"],"acf":[],"authors":[{"term_id":372,"user_id":44,"is_guest":0,"slug":"dr-in-agnieszka-mikolajczyk-barela","display_name":"dr inz. Agnieszka Miko\u0142ajczyk-Bare\u0142a","avatar_url":{"url":"https:\/\/haimagazine.com\/wp-content\/uploads\/2024\/08\/Agnieszka-Mikolajczyk-Barela.jpeg","url2x":"https:\/\/haimagazine.com\/wp-content\/uploads\/2024\/08\/Agnieszka-Mikolajczyk-Barela.jpeg"},"first_name":"Agnieszka","last_name":"Miko\u0142ajczyk-Bare\u0142a","user_url":"","job_title":"","description":"Autorka zbior\u00f3w danych, prac naukowych i publikacji, Senior AI Engineer w start-upie Chaptr. Prac\u0119 doktorsk\u0105 na temat wykrywania i zmniejszania wp\u0142ywu b\u0142\u0119d\u00f3w w danych i modelach AI obroni\u0142a na Politechnice Gda\u0144skiej. W wolnym czasie organizatorka, aktywnie udziela si\u0119 w \u015brodowisku naukowym \u2013 prowadzi m.in. projekty AI4Good."}],"_links":{"self":[{"href":"https:\/\/haimagazine.com\/pl\/wp-json\/wp\/v2\/posts\/3425","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/haimagazine.com\/pl\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/haimagazine.com\/pl\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/haimagazine.com\/pl\/wp-json\/wp\/v2\/users\/44"}],"replies":[{"embeddable":true,"href":"https:\/\/haimagazine.com\/pl\/wp-json\/wp\/v2\/comments?post=3425"}],"version-history":[{"count":5,"href":"https:\/\/haimagazine.com\/pl\/wp-json\/wp\/v2\/posts\/3425\/revisions"}],"predecessor-version":[{"id":7755,"href":"https:\/\/haimagazine.com\/pl\/wp-json\/wp\/v2\/posts\/3425\/revisions\/7755"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/haimagazine.com\/pl\/wp-json\/wp\/v2\/media\/3440"}],"wp:attachment":[{"href":"https:\/\/haimagazine.com\/pl\/wp-json\/wp\/v2\/media?parent=3425"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/haimagazine.com\/pl\/wp-json\/wp\/v2\/categories?post=3425"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/haimagazine.com\/pl\/wp-json\/wp\/v2\/tags?post=3425"},{"taxonomy":"popular","embeddable":true,"href":"https:\/\/haimagazine.com\/pl\/wp-json\/wp\/v2\/popular?post=3425"},{"taxonomy":"difficulty-level","embeddable":true,"href":"https:\/\/haimagazine.com\/pl\/wp-json\/wp\/v2\/difficulty-level?post=3425"},{"taxonomy":"author","embeddable":true,"href":"https:\/\/haimagazine.com\/pl\/wp-json\/wp\/v2\/ppma_author?post=3425"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}