Jak budować efektywne modele multimodalne?

Rozwój dużych modeli językowych pociągnął za sobą rozwój modeli wielomodalnych (zwanych też multimodalnymi), czyli takich które na wejściu mogą przyjąć więcej niż jeden typ danych (modalność). W tym przypadku, omawiamy możliwość analizy obrazu i tekstu jednocześnie.

Ten artykuł jest częścią serii „Tłumaczymy! Naukowe świeżynki”, do której zapraszamy ekspertów, by dla nas objaśniali aktualne publikacje naukowe z dziedziny sztucznej inteligencji.

W ramach swojej pracy MM1: Methods, Analysis & Insights from Multimodal LLM Pre-training naukowcy z Apple’a postanowili przygotować „przepis na sukces”, czyli opracować wskazówki, jak wytrenować modele, aby odpowiednio analizowały wielomodalne wejścia i prawidłowo wykonywały instrukcje. Skupili się przy tym na dwóch aspektach: na architekturze modeli oraz danych treningowych. Przyjrzyjmy się bliżej temu, co opisali i co z tego wynika.

Ten artykuł jest częścią drukowanej edycji hAI Magazine. Aby go przeczytać w całości, wykup dostęp on-line

25 zł miesięcznie

Wykup dostęp

dr inż. Agnieszka Mikołajczyk-Bareła

Senior AI Engineer w start-upie Chaptr, autorka zbiorów danych, prac naukowych, i publikacji

Podziel się

Może Cię zainteresować