Jak budować efektywne modele multimodalne?

Rozwój dużych modeli językowych pociągnął za sobą rozwój modeli wielomodalnych (zwanych też multimodalnymi), czyli takich które na wejściu mogą przyjąć więcej niż jeden typ danych (modalność). W tym przypadku, omawiamy możliwość analizy obrazu i tekstu jednocześnie.

dr inz. Agnieszka Mikołajczyk-Bareła

29 sie 2024

Ten artykuł jest częścią serii „Tłumaczymy! Naukowe świeżynki”, do której zapraszamy ekspertów, by dla nas objaśniali aktualne publikacje naukowe z dziedziny sztucznej inteligencji.

W ramach swojej pracy „MM1: Methods, Analysis & Insights from Multimodal LLM Pre-training„ naukowcy z Apple’a postanowili przygotować „przepis na sukces”, czyli opracować wskazówki, jak wytrenować modele, aby odpowiednio analizowały wielomodalne wejścia i prawidłowo wykonywały instrukcje. Skupili się przy tym na dwóch aspektach: na architekturze modeli oraz danych treningowych. Przyjrzyjmy się bliżej temu, co opisali i co z tego wynika.

Ten artykuł jest częścią płatnej edycji hAI Magazine. Aby go przeczytać w całości, wykup dostęp on-line

29,99 zł miesięcznie

Wykup dostęp

Zaloguj Pakiety

dr inz. Agnieszka Mikołajczyk-Bareła

Autorka zbiorów danych, prac naukowych i publikacji, Senior AI Engineer w start-upie Chaptr. Pracę doktorską na temat wykrywania i zmniejszania wpływu błędów w danych i modelach AI obroniła na Politechnice Gdańskiej. W wolnym czasie organizatorka, aktywnie udziela się w środowisku naukowym – prowadzi m.in. projekty AI4Good.

Podziel się

dekoder, llm, mlm, multimodal, wizja-tekst

Podziel się

Może Cię zainteresować

dr inz. Agnieszka Mikołajczyk-Bareła

DeepSeek – przyczajony tygrys

Najnowszy model DeepSeek oferuje zaawansowane możliwości rozumowania, porównywalne z czołowymi modelami, takimi jak GPT-4, przy znacznie niższych kosztach i mniejszym zużyciu zasobów obliczeniowych.

31.03

Jak budować efektywne modele multimodalne?

Ten artykuł jest częścią płatnej edycji hAI Magazine. Aby go przeczytać w całości, wykup dostęp on-line

29,99 zł miesięcznie

Podziel się

Podziel się

Może Cię zainteresować

DeepSeek – przyczajony tygrys