Modele językowe

Jakie są modele językowe, czym się różnią i do czego służą?

Rozwój ludzkości opiera się na korowodzie rewolucji wprowadzających do życia nowe rozwiązania technologiczne. Doświadczyliśmy już rewolucji przemysłowej, motoryzacyjnej czy środków masowego przekazu, a teraz przyszedł czas na rewolucję AI – generatywną rewolucję, najczęściej kojarzoną z dużymi modelami językowymi, zwanymi skrótowo LLM-ami (ang. Large Language Models).

Rewolucja AI, której obecnie doświadczamy, zaczęła się o wiele wcześniej niż wielu z nas przypuszcza. Jedni wymieniają konkurs ImageNet z 2012 roku i zwycięstwo sieci konwolucyjnej AlexNet jako pierwszy silny sygnał nadejścia ery głębokich sieci neuronowych, ci bardziej skupieni na automatycznym przetwarzaniu języka (Natural Language Processing – NLP) wskazują skuteczne zastosowanie sieci rekurencyjnych LSTM lub słynny artykuł naukowy pt. Attention Is All You Need z 2017 roku. Zaproponowano w nim nową architekturę sieci o nazwie Transformer, która obecnie stała się architekturą pierwszego wyboru przy budowie nowoczesnych LLM-ów. Kluczowym, rewolucyjnym właśnie elementem architektury Transformer jest tytułowy mechanizm uwagi, zwany też mechanizmem atencji (ang. attention), pozwalający efektywnie uwzględniać relacje między słowami w różnej odległości od siebie i rozróżniać kontekst znaczenia. Ale po kolei, zanim odpowiemy na pytanie, czym jest ten enigmatyczny LLM, warto wprowadzić na scenę dwa pojęcia – model językowy, jego neuronową wersję, oraz pewną kategoryzacje tychże modeli.

Ten artykuł jest częścią drukowanej edycji hAI Magazine. Aby go przeczytać w całości, wykup dostęp on-line

25 zł miesięcznie

Wykup dostęp

dr inż. Marek Kozłowski

Kierownik AI LAB w OPI – Państwowym Instytucie Badawczym

Podziel się

Może Cię zainteresować