{"id":3447,"date":"2024-08-29T17:01:27","date_gmt":"2024-08-29T17:01:27","guid":{"rendered":"https:\/\/haimagazine.com\/?p=3447"},"modified":"2025-06-26T14:08:35","modified_gmt":"2025-06-26T12:08:35","slug":"modele-jezykowe","status":"publish","type":"post","link":"https:\/\/haimagazine.com\/pl\/hai-magazine\/modele-jezykowe\/","title":{"rendered":"\ud83d\udd12 Modele j\u0119zykowe"},"content":{"rendered":"<p>Rozw\u00f3j ludzko\u015bci opiera si\u0119 na korowodzie rewolucji wprowadzaj\u0105cych do \u017cycia nowe rozwi\u0105zania technologiczne. Do\u015bwiadczyli\u015bmy ju\u017c rewolucji przemys\u0142owej, motoryzacyjnej czy \u015brodk\u00f3w masowego przekazu, a teraz przyszed\u0142 czas na rewolucj\u0119 AI \u2013 generatywn\u0105 rewolucj\u0119, najcz\u0119\u015bciej kojarzon\u0105 z du\u017cymi modelami j\u0119zykowymi, zwanymi skr\u00f3towo LLM-ami (ang.\u00a0Large Language Models).<\/p><p>Rewolucja AI, kt\u00f3rej obecnie do\u015bwiadczamy, zacz\u0119\u0142a si\u0119 o wiele wcze\u015bniej ni\u017c wielu z nas przypuszcza. Jedni wymieniaj\u0105 konkurs ImageNet z 2012 roku i zwyci\u0119stwo sieci konwolucyjnej AlexNet jako pierwszy silny sygna\u0142 nadej\u015bcia ery g\u0142\u0119bokich sieci neuronowych, ci bardziej skupieni na automatycznym przetwarzaniu j\u0119zyka (<em>Natural Language Processing \u2013 NLP<\/em>) wskazuj\u0105 skuteczne zastosowanie sieci rekurencyjnych LSTM lub s\u0142ynny artyku\u0142 naukowy pt.\u00a0<em>Attention Is All You Need\u00a0<\/em>z 2017 roku. Zaproponowano w nim now\u0105 architektur\u0119 sieci o nazwie\u00a0<em>Transformer<\/em>, kt\u00f3ra obecnie sta\u0142a si\u0119 architektur\u0105 pierwszego wyboru przy budowie nowoczesnych LLM-\u00f3w. Kluczowym, rewolucyjnym w\u0142a\u015bnie elementem architektury\u00a0<em>Transformer\u00a0<\/em>jest tytu\u0142owy mechanizm uwagi, zwany te\u017c mechanizmem atencji (ang.\u00a0<em>attention<\/em>), pozwalaj\u0105cy efektywnie uwzgl\u0119dnia\u0107 relacje mi\u0119dzy s\u0142owami w r\u00f3\u017cnej odleg\u0142o\u015bci od siebie i rozr\u00f3\u017cnia\u0107 kontekst znaczenia. Ale po kolei, zanim odpowiemy na pytanie, czym jest ten enigmatyczny LLM, warto wprowadzi\u0107 na scen\u0119 dwa poj\u0119cia \u2013 model j\u0119zykowy, jego neuronow\u0105 wersj\u0119, oraz pewn\u0105 kategoryzacje tych\u017ce modeli.<\/p><p><strong>Modele j\u0119zykowe&nbsp;<\/strong>to w skr\u00f3cie rozwi\u0105zania, kt\u00f3re przypisuj\u0105 prawdopodobie\u0144stwa zadanemu tekstowi, reprezentowanemu jako sekwencja s\u0142\u00f3w. Modele j\u0119zykowe s\u0105 uczone poprzez pokazywanie im odpowiednio du\u017cych wolumen\u00f3w danych tekstowych, aby w ten spos\u00f3b mog\u0142y zbudowa\u0107 wiedz\u0119 o j\u0119zyku. Na pocz\u0105tku modele j\u0119zykowe by\u0142y budowane z u\u017cyciem reprezentacji tekstu jako \u201eworka s\u0142\u00f3w\u201d (ang.&nbsp;<em>bag of words)&nbsp;<\/em>lub ich kolekcji (zwanych n-gramami, np. bigram to kolekcja dw\u00f3ch s\u0142\u00f3w, trigram &#8211; trzech itp.) i odpowiednich narz\u0119dzi statystycznych, jak np. \u0142a\u0144cuchy Markova. Od oko\u0142o 2013 roku zaobserwowali\u015bmy szerokie odej\u015bcie od klasycznych statystycznych i probabilistycznych modeli NLP do algorytm\u00f3w opartych na p\u0142ytkich sieciach neuronowych (np. wykorzystuj\u0105ce statyczne reprezentacje typu Word2vec czy GloVe), po aplikowanie g\u0142\u0119bokiego uczenia maszynowego jak sieci rekurencyjne, a potem sieci typu&nbsp;<em>Transformer<\/em>.<\/p><p>Modele j\u0119zykowe wykorzystuj\u0105ce sieci neuronowe s\u0105 nazywane&nbsp;<strong>neuronowymi modelami j\u0119zykowymi&nbsp;<\/strong>(ang.&nbsp;<em>Neural Language Models,&nbsp;<\/em>NLMs). Tej klasy modele s\u0105 uczone jako probabilistyczne klasyfikatory przewiduj\u0105ce zamaskowane lub po prostu nast\u0119pne s\u0142owo na bazie zadanego kontekstu, czyli sekwencji s\u0142\u00f3w. Na potrzeby pewnego uproszczenia u\u017cywam tutaj s\u0142owa jako podstawowej jednostki tekstu (token jako s\u0142owo, tzw. ang.&nbsp;<em>word class tokens<\/em>), natomiast obecnie popularne s\u0105 inne metody podzia\u0142u tekstu, kt\u00f3re rozbijaj\u0105 teksty nie na s\u0142owa, ale ich podci\u0105gi znakowe (token jako cz\u0119\u015b\u0107 s\u0142owa, ang.&nbsp;<em>subword class tokens<\/em>), ale dla prostoty przekazu dalej b\u0119d\u0119 m\u00f3wi\u0142 o s\u0142owach nawet w miejscu gdzie powinienem u\u017cy\u0107 nazwy token. Temat o podziale tekstu na podstawowe elementy zwane tokenami to materia\u0142 na odr\u0119bny artyku\u0142.<\/p><h4 class=\"wp-block-heading\"><strong>Neuronowe modele j\u0119zykowe\u00a0<\/strong><\/h4><p>mo\u017cna podzieli\u0107 na dwie g\u0142\u00f3wne klasy ze wzgl\u0119du na ich najbardziej efektywne zastosowania aplikacyjne:<\/p><ul class=\"wp-block-list\"><li><strong>Modele reprezentacyjne<\/strong>, uczone najcz\u0119\u015bciej metod\u0105 maskowanego modelowania j\u0119zyka (MLM, ang.\u00a0<em>Masked Language Modeling<\/em>; przewidywanie zamaskowanego s\u0142owa w oparciu o otaczaj\u0105cy go kontekst). Takie modele posiadaj\u0105 z regu\u0142y do 1 mld parametr\u00f3w (inaczej wag, ang.\u00a0<em>weights<\/em>) i s\u0105 najbardziej odpowiednie do zada\u0144 klasyfikacyjnych czy regresyjnych, takich jak rozpoznawanie nazw w\u0142asnych, klasyfikacji dokument\u00f3w czy predykcji ci\u0105g\u0142ej oceny pewnych tekst\u00f3w. Przyk\u0142adami takich modeli s\u0105 BERT, RoBERTa, DeBERTa. Kiedy\u015b modele reprezentacyjne nazywane by\u0142y du\u017cymi, ale obecnie ju\u017c nie s\u0105, gdy\u017c \u017cyjemy w dobie modeli generatywnych, licz\u0105cych setki miliard\u00f3w parametr\u00f3w.<\/li><\/ul><ul class=\"wp-block-list\"><li><strong>Modele generatywne<\/strong>, uczone najcz\u0119\u015bciej metod\u0105 przewidywania kolejnego s\u0142owa dla zadanej sekwencji poprzedzaj\u0105cych go s\u0142\u00f3w. Takie modele posiadaj\u0105 z regu\u0142y powy\u017cej 1 mld parametr\u00f3w (wag) i s\u0105 najbardziej odpowiednie do zada\u0144 gene- racji tekstu, takich jak np. streszczanie, odpowiadanie na pytania czy t\u0142umaczenie maszynowe.\u00a0<strong>Wyr\u00f3\u017cniamy dwie klasyczne architektury w ramach modeli generatywnych: enkoder\u2013dekoder (np. modele T5, BART), oraz tylko dekoder (np. GPT, LLama, Mistral, Gemini, Claude).<\/strong><\/li><\/ul><p>Ale co w\u0142a\u015bciwie oznaczaj\u0105 te enigmatyczne architektury? I czemu modele generatywne nie s\u0105 rekomendowane do zada\u0144 typowych dla modeli reprezentacyjnych?<\/p><p><strong>Same poj\u0119cia \u201eenkoder\u201d i \u201edekoder\u201d mo\u017cna \u2013 mocno upraszczaj\u0105c \u2013 t\u0142umaczy\u0107 w taki spos\u00f3b, \u017ce enkoder to modu\u0142 zamiany tekstu do pewnej ograniczonej wymiarowo reprezentacji numerycznej, a dekoder to modu\u0142 generacji tekstu na bazie pewnych reprezentacji numerycznych.<\/strong><\/p><p>Modele reprezentacyjne maj\u0105 architektur\u0119 sk\u0142adaj\u0105c\u0105 si\u0119 wy\u0142\u0105cznie z enkodera (tzw.&nbsp;<strong><em>encoder-only<\/em><\/strong>). Dane wej\u015bciowe to tekst, a dane wyj\u015bciowe to sekwencja wielowymiarowych wektor\u00f3w reprezentuj\u0105cych s\u0142owa (te wektory zwane s\u0105 osadzeniami, albo z angielskiego embeddingami \u2013&nbsp;<em>embeddings<\/em>). Modele&nbsp;<em>encoder-only&nbsp;<\/em>wykorzystuj\u0105 dwukierunkowy mechanizm atencji, dzi\u0119ki czemu model mo\u017ce analizowa\u0107 relacje mi\u0119dzy s\u0142owami w r\u00f3\u017cnym uj\u0119ciu przyczynowo\u015bci.<\/p><p>W przypadku generatywnych modeli sk\u0142adaj\u0105cych si\u0119 wy\u0142\u0105cznie z dekodera (tzw.&nbsp;<strong><em>decoder-only<\/em><\/strong>), r\u00f3wnie\u017c mamy na wej\u015bciu tekst, ale dane wyj\u015bciowe to s\u0142owo, kt\u00f3re nast\u0119puje po zadanym tek\u015bcie, sukcesywnie do\u0142\u0105czane do danych wej\u015bciowych, aby iteracyjnie produkowa\u0107 na wyj\u015bciu s\u0142owo po s\u0142owie, kt\u00f3ry si\u0119 sk\u0142ada na po\u017c\u0105dany przez nas e-mail, opis produktu czy propozycj\u0119 postu na LinkedIn. Mechanizm atencji jest tu prawie zawsze jednokierunkowy, wi\u0119c model uwzgl\u0119dnia tylko poprzednie s\u0142owa podczas nauki i wnioskowania.<\/p><p>Na koniec przeanalizujmy architektur\u0119 enkoderdekoder (tzw.&nbsp;<strong><em>encoder\u2013decoder<\/em><\/strong>), kt\u00f3ra ma analogiczne wej\u015bcie i wy\u015bcie jak architektura&nbsp;<em>decoder-only<\/em>. Dane wej\u015bciowe to tekst, a wyj\u015bcie to s\u0142owo, kt\u00f3re jest nast\u0119pnie do\u0142\u0105czane do wej\u015bcia dekodera, aby w p\u0119tli generowa\u0107 strumie\u0144 wyj\u015bciowych s\u0142\u00f3w. Mechanizm atencji jest tu krzy\u017cowy, aby dekoder m\u00f3g\u0142 korzysta\u0107 z informacji z enkodera.<\/p><p>Obie wspomniane architektury,&nbsp;<strong><em>decoder-only&nbsp;<\/em><\/strong>i&nbsp;<strong><em>encoder-decoder<\/em><\/strong>, s\u0105 w stanie realizowa\u0107 zadanie klasyfikacji, po prostu generuj\u0105c na wyj\u015bciu etykiety klasy jako tekst. Natomiast nale\u017cy pami\u0119ta\u0107, \u017ce nie zawsze dzia\u0142aj\u0105 skuteczniej ni\u017c modele reprezenta- cyjne oraz prawie zawsze s\u0105 wielokrotnie wi\u0119ksze (pod wzgl\u0119dem liczby parametr\u00f3w), co powoduje, \u017ce s\u0105 du\u017co dro\u017cszym sposobem w realizacji zada\u0144 klasyfikacji czy regresji.<\/p><p><strong>Nale\u017cy pami\u0119ta\u0107, i\u017c model zbudowany tylko w oparciu o sam dekoder (czyli np. modele GPT!) dzia\u0142a gorzej w przypadku znacznej r\u00f3\u017cnicy w dystrybucji s\u0142\u00f3w mi\u0119dzy tekstami wej\u015bcia a tekstami wyj\u015bcia, i wtedy przewag\u0119 posiada architektura enkoder-dekoder, kt\u00f3ra charakte- ryzuje si\u0119 wysokimi w\u0142a\u015bciwo\u015bciami rozumienia tekstu. Natomiast przewag\u0105 samego dekodera jest prostsza architektura, lepsza skalowalno\u015b\u0107 i wyso- kiej jako\u015bci wyniki w zadaniach konwersacyjnych.<\/strong><\/p><figure class=\"wp-block-pullquote\"><blockquote><p>Uwaga, zawsze warto sprawdzi\u0107 obie architektury generatywne, gdy\u017c ka\u017cde zadanie z osobna mo\u017ce preferowa\u0107 jedn\u0105 z nich bardziej, zw\u0142aszcza gdy dysponujemy specyficznymi domenowymi zbiorami danych.<\/p><\/blockquote><\/figure><p>A teraz, maj\u0105c ju\u017c zdefiniowane wszystkie sk\u0142adowe poj\u0119cia, mo\u017cemy przej\u015b\u0107 do definicji du\u017cego modelu j\u0119zyka. Czym jest ten LLM?<\/p><h4 class=\"wp-block-heading\"><strong>LLM \u2013\u00a0<em>Large Language Model\u00a0<\/em><\/strong><\/h4><p>\u2013 to generatywny neuronowy model j\u0119zykowy (najcz\u0119\u015bciej typu\u00a0<em>encoder-decoder\u00a0<\/em>lub\u00a0<em>decoder-only<\/em>), maj\u0105cy wiele miliard\u00f3w parametr\u00f3w (wag), wst\u0119pnie wytreno- wany na ogromnych zbiorach danych tekstowych licz\u0105cych co najmniej setki miliard\u00f3w token\u00f3w, kt\u00f3ry na podstawie podanego mu wej\u015bciowego tekstu potrafi generowa\u0107 tekst wyj\u015bciowy s\u0142owo po s\u0142owie. Modele fundamentalne s\u0105 strojone na olbrzymich korpusach instrukcji, kt\u00f3re zawieraj\u0105 r\u00f3\u017cne pole- cenia\/zadania z przyk\u0142adowymi ich rozwi\u0105zaniami, np. napisz wiersz, podsumuj wypowied\u017a, odpowiedz na pytanie zamkni\u0119te lub otwarte. Opcjonalnie mo\u017cna te\u017c na ostatnim etapie prowadzi\u0107 wycho- wanie wystrojonego modelu na bazie korpus\u00f3w preferencji (ludzie oceniaj\u0105 odpowiedzi modelu, co jest potem wykorzystywane do jego optymalizacji). To wszystko wykonane pozwala nam budowa\u0107 silne modele konwersacyjne, jak popularny ChatGPT, Claude czy Gemini, kt\u00f3rych zdolno\u015b\u0107 odpowiadania na wszelkie pytania nas tak zadziwia i inspiruje.<\/p>","protected":false},"excerpt":{"rendered":"<p>Jakie s\u0105 modele j\u0119zykowe, czym si\u0119 r\u00f3\u017cni\u0105 i do czego s\u0142u\u017c\u0105? <\/p>\n","protected":false},"author":42,"featured_media":3473,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"_acf_changed":false,"rank_math_lock_modified_date":false,"footnotes":""},"categories":[402,763,754,403],"tags":[196,193,195],"popular":[],"difficulty-level":[36],"ppma_author":[373],"class_list":["post-3447","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-hai-magazine","category-ai_praktyka","category-hai_premium","category-hai-magazine-1","tag-jezykowe","tag-llm-2","tag-modele","difficulty-level-easy"],"acf":[],"authors":[{"term_id":373,"user_id":42,"is_guest":0,"slug":"dr-inz-marek-kozlowski","display_name":"dr in\u017c. Marek Koz\u0142owski","avatar_url":"https:\/\/secure.gravatar.com\/avatar\/48eec533b1ea826ef1befbbaf5880c87f493e82f1342cc7aea27e0f941832264?s=96&d=mm&r=g","first_name":"Marek","last_name":"Koz\u0142owski","user_url":"","job_title":"","description":"Kierownik AI LAB w OPI \u2013 Pa\u0144stwowym Instytucie Badawczym"}],"_links":{"self":[{"href":"https:\/\/haimagazine.com\/pl\/wp-json\/wp\/v2\/posts\/3447","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/haimagazine.com\/pl\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/haimagazine.com\/pl\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/haimagazine.com\/pl\/wp-json\/wp\/v2\/users\/42"}],"replies":[{"embeddable":true,"href":"https:\/\/haimagazine.com\/pl\/wp-json\/wp\/v2\/comments?post=3447"}],"version-history":[{"count":4,"href":"https:\/\/haimagazine.com\/pl\/wp-json\/wp\/v2\/posts\/3447\/revisions"}],"predecessor-version":[{"id":3613,"href":"https:\/\/haimagazine.com\/pl\/wp-json\/wp\/v2\/posts\/3447\/revisions\/3613"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/haimagazine.com\/pl\/wp-json\/wp\/v2\/media\/3473"}],"wp:attachment":[{"href":"https:\/\/haimagazine.com\/pl\/wp-json\/wp\/v2\/media?parent=3447"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/haimagazine.com\/pl\/wp-json\/wp\/v2\/categories?post=3447"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/haimagazine.com\/pl\/wp-json\/wp\/v2\/tags?post=3447"},{"taxonomy":"popular","embeddable":true,"href":"https:\/\/haimagazine.com\/pl\/wp-json\/wp\/v2\/popular?post=3447"},{"taxonomy":"difficulty-level","embeddable":true,"href":"https:\/\/haimagazine.com\/pl\/wp-json\/wp\/v2\/difficulty-level?post=3447"},{"taxonomy":"author","embeddable":true,"href":"https:\/\/haimagazine.com\/pl\/wp-json\/wp\/v2\/ppma_author?post=3447"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}