🔒 Modele językowe

Jakie są modele językowe, czym się różnią i do czego służą?

Loading the Elevenlabs Text to Speech AudioNative Player…

Rozwój ludzkości opiera się na korowodzie rewolucji wprowadzających do życia nowe rozwiązania technologiczne. Doświadczyliśmy już rewolucji przemysłowej, motoryzacyjnej czy środków masowego przekazu, a teraz przyszedł czas na rewolucję AI – generatywną rewolucję, najczęściej kojarzoną z dużymi modelami językowymi, zwanymi skrótowo LLM-ami (ang. Large Language Models).

Rewolucja AI, której obecnie doświadczamy, zaczęła się o wiele wcześniej niż wielu z nas przypuszcza. Jedni wymieniają konkurs ImageNet z 2012 roku i zwycięstwo sieci konwolucyjnej AlexNet jako pierwszy silny sygnał nadejścia ery głębokich sieci neuronowych, ci bardziej skupieni na automatycznym przetwarzaniu języka (Natural Language Processing – NLP) wskazują skuteczne zastosowanie sieci rekurencyjnych LSTM lub słynny artykuł naukowy pt. Attention Is All You Need z 2017 roku. Zaproponowano w nim nową architekturę sieci o nazwie Transformer, która obecnie stała się architekturą pierwszego wyboru przy budowie nowoczesnych LLM-ów. Kluczowym, rewolucyjnym właśnie elementem architektury Transformer jest tytułowy mechanizm uwagi, zwany też mechanizmem atencji (ang. attention), pozwalający efektywnie uwzględniać relacje między słowami w różnej odległości od siebie i rozróżniać kontekst znaczenia. Ale po kolei, zanim odpowiemy na pytanie, czym jest ten enigmatyczny LLM, warto wprowadzić na scenę dwa pojęcia – model językowy, jego neuronową wersję, oraz pewną kategoryzacje tychże modeli.

Ten artykuł jest częścią drukowanej edycji hAI Magazine. Aby go przeczytać w całości, wykup dostęp on-line

29,99 zł miesięcznie

Wykup dostęp

Kierownik AI LAB w OPI – Państwowym Instytucie Badawczym

Podziel się

Może Cię zainteresować