{"id":9446,"date":"2025-03-31T10:00:00","date_gmt":"2025-03-31T08:00:00","guid":{"rendered":"https:\/\/haimagazine.com\/?p=9446"},"modified":"2025-06-18T10:33:25","modified_gmt":"2025-06-18T08:33:25","slug":"bielik-r-szykuje-sie-do-lotu","status":"publish","type":"post","link":"https:\/\/haimagazine.com\/pl\/hai-magazine\/numer-4\/bielik-r-szykuje-sie-do-lotu\/","title":{"rendered":"\ud83d\udd12 Bielik-R szykuje si\u0119 do lotu?"},"content":{"rendered":"<p class=\"wp-block-paragraph\">Koncepcja modeli j\u0119zykowych zdolnych do \u201emy\u015blenia\u201d rozpowszechni\u0142a si\u0119 wraz z wprowadzeniem przez OpenAI modelu o1. Modele tego typu przez pewien czas analizuj\u0105 problem, zanim udziel\u0105 odpowiedzi. Generuj\u0105 tzw. \u0142a\u0144cuchy my\u015bli (<em>chain-of-thought<\/em>), kt\u00f3re pomagaj\u0105 im obra\u0107 w\u0142a\u015bciwy kierunek w rozwi\u0105zywaniu zada\u0144. Dzi\u0119ki temu zwi\u0119kszaj\u0105 szanse na podanie poprawnego rozwi\u0105zania.<\/p><p class=\"wp-block-paragraph\">Podobnie jak inne modele LLM, polski model j\u0119zykowy Bielik zosta\u0142 wytrenowany na ogromnych zbiorach danych tekstowych. Pierwszym etapem by\u0142 pretrening, czyli nauka przewidywania kolejnego tokena na podstawie tekstu wej\u015bciowego. Wyb\u00f3r kolejnych faz tworzenia modeli zale\u017cy od przyj\u0119tej strategii tw\u00f3rc\u00f3w \u2013 zwykle to instrukcyjne uczenie nadzorowane (<em>instruction fine-tuning<\/em>). Etapy treningowe mog\u0105 obejmowa\u0107 m.in. techniki uczenia ze wzmocnieniem (Reinforcement Learning, RL). Jedn\u0105 z najskuteczniejszych jest Reinforcement Learning from Human Feedback (RLHF), czyli takie uczenie ze wzmocnieniem, w kt\u00f3rym ocen\u0119 efekt\u00f3w wystawia cz\u0142owiek. To rozwi\u0105zanie spopularyzowane przez OpenAI jako element treningu ChatGPT. Proces ten pozwala bardziej precyzyjnie sterowa\u0107 zachowaniem modelu i dostosowa\u0107 form\u0119 oraz tre\u015b\u0107 odpowiedzi do preferencji odbiorcy. Typow\u0105 ju\u017c dzisiaj metod\u0119 uczenia przez wzmacnianie postanowili\u015bmy wykorzysta\u0107 w procesie uczenia modelu Bielik. A skoro \u015bwiatowym standardem sta\u0142y si\u0119 aktualnie modele typu R (<em>reasoning<\/em>), czyli te \u201emy\u015bl\u0105ce\u201d, to zadali\u015bmy sobie pytanie: czy uda nam si\u0119 stworzy\u0107 model, kt\u00f3ry b\u0119dzie generowa\u0142 \u0142a\u0144cuchy my\u015bli w j\u0119zyku polskim? I czy b\u0119dzie gotowy, by wyj\u015b\u0107 z laboratorium i przyj\u0105\u0107 form\u0119 pe\u0142noprawnego modelu Bielik-R?<\/p><figure class=\"wp-block-table\"><table class=\"has-background has-border-color has-base-border-color has-fixed-layout\" style=\"background-color:#e3bd9f;border-width:3px\"><tbody><tr><td><strong>Instrukcja<\/strong><\/td><td><strong>Stolic\u0105 Polski jest?<\/strong><\/td><td><strong>Ocena preferencji[0-5]<\/strong><\/td><\/tr><tr><td rowspan=\"4\">Odpowied\u017a modelu<\/td><td>Warszawa.<\/td><td>3<\/td><\/tr><tr><td>Stolic\u0105 Polski jest Krak\u00f3w.<\/td><td>0<\/td><\/tr><tr><td>Stolica Polski \u2013 Warszawa \u2013 le\u017cy w \u015brodku Polski nad rzek\u0105 Wis\u0142\u0105. Warszawa jest stolic\u0105 od 1596 roku, kiedy to kr\u00f3l Zygmunt III przeni\u00f3s\u0142 stolic\u0119 z Krakowa do Warszawy.<\/td><td>4<\/td><\/tr><tr><td>Stolic\u0105 Polski jest Warszawa.<\/td><td>5<\/td><\/tr><\/tbody><\/table><\/figure><p class=\"wp-block-paragraph\"><em>Tabela 1. Preferencje u\u017cytkownika. Ocena mo\u017ce odzwierciedla\u0107 prawid\u0142owo\u015b\u0107 odpowiedzi oraz jej styl (z ocen wynika, \u017ce preferowana jest odpowied\u017a poprawna i wyra\u017cona pe\u0142nym zdaniem, ale nie za bardzo szczeg\u00f3\u0142owa).<\/em><\/p><p class=\"wp-block-paragraph\"><strong>Jak dzia\u0142a RLHF?<\/strong><\/p><p class=\"wp-block-paragraph\">Zanim przejdziemy do szczeg\u00f3\u0142\u00f3w zwi\u0105zanych z treningiem i implementacj\u0105 modelu my\u015bl\u0105cego Bielik, om\u00f3wmy wspomnian\u0105 technik\u0119 ludzkiej oceny (RLHF), od kt\u00f3rej wszystko si\u0119 zacz\u0119\u0142o. Jak sama nazwa wskazuje, sercem metody jest informacja o preferencjach cz\u0142owieka. To ona w procesie uczenia modelu wskazuje, w jaki spos\u00f3b powinien formu\u0142owa\u0107 odpowiedzi, by by\u0142y rzeczywi\u015bcie przydatne i lepiej wpisywa\u0142y si\u0119 w oczekiwania u\u017cytkownik\u00f3w.<\/p><p class=\"wp-block-paragraph\">Proces uczenia RLHF w du\u017cym uproszczeniu sk\u0142ada si\u0119 z trzech g\u0142\u00f3wnych krok\u00f3w:<\/p><ol class=\"wp-block-list\"><li><strong><mark style=\"background-color:rgba(0, 0, 0, 0);color:#f3725c\" class=\"has-inline-color\">Zbieranie danych o preferencjach u\u017cytkownik\u00f3w<\/mark><\/strong> \u2013 model generuje wiele odpowiedzi, kt\u00f3re nast\u0119pnie s\u0105 oceniane przez ludzi.<\/li>\n\n<li><mark style=\"background-color:rgba(0, 0, 0, 0);color:#f3725c\" class=\"has-inline-color\"><strong>Trenowanie modelu nagr\u00f3d<\/strong> <\/mark>\u2013 na podstawie ocen tworzony jest model nagr\u00f3d (<em>reward model<\/em>), kt\u00f3ry przewiduje jako\u015b\u0107 (warto\u015b\u0107 preferencji) przysz\u0142ych odpowiedzi \u2013 uczenie ze wzmocnieniem opiera si\u0119 bowiem na systemie kar i nagr\u00f3d. B\u0119dziemy go u\u017cywali w procesie treningowym. Nale\u017cy wspomnie\u0107, \u017ce etap ten jest cz\u0119sto pomijany, poniewa\u017c istnieje spora liczba gotowych modeli nagr\u00f3d. Niestety zdecydowana wi\u0119kszo\u015b\u0107 z nich nie jest wystarczaj\u0105co efektywna w przypadku j\u0119zyka polskiego.<\/li>\n\n<li><strong><mark style=\"background-color:rgba(0, 0, 0, 0);color:#f3725c\" class=\"has-inline-color\">Trening oraz optymalizacja modelu<\/mark> <\/strong>\u2013 model jest dostrajany tak, by maksymalizowa\u0107 przewidywan\u0105 nagrod\u0119, co prowadzi do poprawy jego jako\u015bci. W tym celu stosuje si\u0119 algorytmy uczenia ze wzmocnieniem (RL), kt\u00f3re pozwalaj\u0105 mu dostosowywa\u0107 swoje odpowiedzi do preferencji u\u017cytkownik\u00f3w. Celem jest jak najwierniejsze odzwierciedlenie preferencji okre\u015blonych w procesie oceny danych (patrz: pkt. 1).<\/li><\/ol><p class=\"wp-block-paragraph\">W ramach treningu RLHF powszechnie stosowanym algorytmem jest Proximal Policy Optimization (PPO). Umo\u017cliwia on zwi\u0119kszenie jako\u015bci modeli poprzez ich dostrajanie, ale w taki spos\u00f3b, by nie oddali\u0142y si\u0119 zbytnio od pierwotnej wersji. Model pod\u0105\u017ca za zdefiniowanymi preferencjami u\u017cytkownika, ale nadal pe\u0142ni swoj\u0105 podstawow\u0105 funkcj\u0119 (np. rozwi\u0105zywanie zada\u0144 matematycznych). Metoda PPO jest jednak z\u0142o\u017cona. Podczas treningu wykorzystuje kilka instancji modeli, takich jak model polityki (Policy), model warto\u015bci (Value), model nagrody (Reward<strong>) <\/strong>oraz model referencyjny, co znacz\u0105co zwi\u0119ksza szanse na niestabilno\u015b\u0107 treningu (aktualizujemy bowiem a\u017c trzy modele). Ponadto metoda ta wymaga du\u017cych (w stosunku do innych metod) zasob\u00f3w obliczeniowych oraz wyd\u0142u\u017ca czas treningu. Dodatkowym problemem w polskiej adaptacji j\u0119zykowej jest konieczno\u015b\u0107 zastosowania wysokiej jako\u015bci modelu nagrody (kt\u00f3rego brak na rynku).<\/p><p class=\"wp-block-paragraph\">W ostatnim czasie pojawi\u0142o si\u0119 wiele alternatywnych metod, kt\u00f3re pozwalaj\u0105 zwi\u0119kszy\u0107 efektywno\u015b\u0107 treningu. W\u015br\u00f3d nich znajdziemy takie, jak KTO (Kahneman &amp; Tversky\u2019s Prospect Theory Optimization), REINFORCE, RLOO (REINFORCE Leave One-Out), ReMax i wiele innych.<\/p><p class=\"wp-block-paragraph\">Podczas tworzenia konwersacyjnej wersji modelu Bielik przetestowano r\u00f3\u017cne techniki uczenia przez wzmacnianie. Zaowocowa\u0142o to znaczn\u0105 popraw\u0105 jako\u015bci generowanych odpowiedzi (potwierdzone wieloma testami). Ostatecznie jednak najlepsze wyniki osi\u0105gni\u0119to dzi\u0119ki metodzie Direct Preference Optimization Positive (DPO-P) \u2013 to uproszczona metoda RLHF, kt\u00f3ra eliminuje konieczno\u015b\u0107 trenowania oddzielnego modelu nagr\u00f3d. W DPO-P preferencje u\u017cytkownik\u00f3w s\u0105 bezpo\u015brednio zaszyte we wzorcowe odpowiedzi danych instrukcyjnych (dla danej instrukcji posiadamy odpowied\u017a preferowan\u0105 oraz odrzucon\u0105), co upraszcza i przyspiesza dostrajanie, jednocze\u015bnie zapewniaj\u0105c stabilno\u015b\u0107 i wysok\u0105 wydajno\u015b\u0107 procesu treningowego. Mo\u017cna powiedzie\u0107, \u017ce metoda ta wywodzi si\u0119 z RL, jednak ze wzgl\u0119du na jej charakter bli\u017cej jej do klasycznych metod uczenia z nadzorem, czyli takich, w kt\u00f3rych podane s\u0105 jednocze\u015bnie dane wej\u015bciowe i oczekiwany wynik.<\/p><h4 class=\"wp-block-heading\"><strong>DeepSeek wprowadza GRPO<\/strong><\/h4><p class=\"wp-block-paragraph\">DeepSeek z pewno\u015bci\u0105 o\u017cywi\u0142 p\u0119dz\u0105cy ju\u017c \u015bwiat AI. W model z serii R wprowadzi\u0142 szereg udoskonale\u0144 procesu treningowego i znaczne zmniejszy\u0142 koszty tworzenia modeli. Ponadto przedstawi\u0142 dwa r\u00f3\u017cni\u0105ce si\u0119 od siebie procesy treningowe, kt\u00f3rych efektem s\u0105 modele \u201emy\u015bl\u0105ce\u201d \u2013 DeepSeek-R-zero oraz DeepSeek-R1. W obu przypadkach zastosowano podej\u015bcie Group Relative Policy Optimization (GRPO). To kolejna metoda, kt\u00f3ra rozszerzy\u0142a rodzin\u0119 metod uczenia przez wzmacnianie.<\/p><p class=\"wp-block-paragraph\">Metoda GRPO bazuje na koncepcji optymalizacji polityki wzgl\u0119dem grup generowanych odpowiedzi. W przeciwie\u0144stwie do standardowych metod, takich jak PPO, kt\u00f3re oceniaj\u0105 ka\u017cd\u0105 z nich osobno, GRPO por\u00f3wnuje odpowiedzi w grupach wygenerowanych dla tego samego zadania (promptu), normalizuj\u0105c nagrody w ramach tej grupy. Mimo \u017ce model trenowany jest g\u0142\u00f3wnie na zadaniach matematycznych czy logicznych, poprawia swoje wnioskowanie w innych dziedzinach (np. kreatywnego pisania). Poza tym GRPO znacznie zmniejsza zapotrzebowanie na zasoby podczas treningu, cho\u0107 konieczno\u015b\u0107 generowania grup odpowiedzi wp\u0142ywa niekorzystnie na czas treningu.<\/p><h4 class=\"wp-block-heading\"><strong>My\u015bl\u0105cy Bielik, czyli Bielik-R<\/strong><\/h4><p class=\"wp-block-paragraph\">Zaledwie kilka dni po premierze modeli DeepSeek-R podj\u0119li\u015bmy intensywne badania nad adaptacj\u0105 metod treningowych GRPO do naszego j\u0119zyka ojczystego. Modele DeepSeek generuj\u0105 obecnie \u0142a\u0144cuchy my\u015bli w j\u0119zyku angielskim i chi\u0144skim. Jednocze\u015bnie zapowiedziano, \u017ce w przysz\u0142o\u015bci b\u0119d\u0105 oferowa\u0142y wsparcie dla innych j\u0119zyk\u00f3w. Celem naszych bada\u0144 by\u0142o stworzenie modelu, kt\u00f3ry formu\u0142uje \u201emy\u015bli\u201d wy\u0142\u0105cznie w j\u0119zyku polskim.<\/p><p class=\"wp-block-paragraph\">G\u0142\u00f3wne wyzwania, kt\u00f3re pojawi\u0142y si\u0119 na pocz\u0105tku projektu, wynika\u0142y z braku polskich danych treningowych. Okaza\u0142o si\u0119 jednak, \u017ce mo\u017cna \u0142atwo zaadaptowa\u0107 angielskie instrukcje \u2013 wykorzystali\u015bmy og\u00f3lnodost\u0119pne zadania matematyczne. Na pocz\u0105tku by\u0142 to zbi\u00f3r GSM8K (Grade School Math 8K). W kolejnych eksperymentach si\u0119gn\u0119li\u015bmy po znacznie bardziej skomplikowane zadania matematyczne i logiczne. Kolejnym problemem by\u0142 pocz\u0105tkowy brak wsparcia dla metody GRPO w popularnych bibliotekach wykorzystywanych do rozproszonego treningu modeli (z u\u017cyciem du\u017cej liczby GPU). Nie lada wyzwaniem by\u0142o r\u00f3wnie\u017c pozyskanie wiarygodnych informacji o adaptacji metody treningowej do innych j\u0119zyk\u00f3w ni\u017c angielski.<\/p><h4 class=\"wp-block-heading\"><strong>Proces treningowy GRPO w Bieliku<\/strong><\/h4><p class=\"wp-block-paragraph\">Jak dzia\u0142a GRPO? Metoda opiera si\u0119 na generowaniu kilku wariant\u00f3w odpowiedzi dla jednego zadania i por\u00f3wnaniu ich ze sob\u0105 w celu oceny, kt\u00f3ra odpowied\u017a jest najlepsza. Nast\u0119pnie model jest aktualizowany na podstawie wzgl\u0119dnych r\u00f3\u017cnic w jako\u015bci generowanych odpowiedzi w obr\u0119bie grupy, co pozwala efektywniej kierowa\u0107 polityk\u0105 modelu w stron\u0119 generowania preferowanych odpowiedzi. Przejd\u017amy do uproszczonego opisu metody GRPO.<\/p><p class=\"wp-block-paragraph\"><strong><mark style=\"background-color:#63b7ad\" class=\"has-inline-color\">Krok 1. Wyb\u00f3r zadania<\/mark><\/strong><\/p><p class=\"wp-block-paragraph\">W trakcie uczenia algorytm wybiera zapytanie z danych treningowych, kt\u00f3re sk\u0142adaj\u0105 si\u0119 z tre\u015bci zadania oraz rozwi\u0105zania (najcz\u0119\u015bciej jest to liczba lub wyra\u017cenie matematyczne). Na przyk\u0142ad: \u201eJaki jest wynik dzia\u0142ania 2+3-4*0.5?\u201d. Oczekiwan\u0105 odpowiedzi\u0105 jest liczba 3.<\/p><p class=\"wp-block-paragraph\"><strong><mark style=\"background-color:#63b7ad\" class=\"has-inline-color\">Krok 2. Generowanie grupy (zestawu <em>n<\/em>) odpowiedzi<\/mark><\/strong><\/p><p class=\"wp-block-paragraph\">Model generuje zestaw r\u00f3\u017cnych odpowiedzi. Trenuj\u0105c Bielika, generowali\u015bmy \u2013 w zale\u017cno\u015bci od eksperymentu \u2013 od 8 do 16 odpowiedzi. Przyk\u0142ady:<\/p><p class=\"has-very-light-gray-background-color has-background wp-block-paragraph\"><code>\u201eWynikiem dzia\u0142ania 2+3-4*0.5 jest &lt;3>.\u201d<br><br>\u201eCztery.\u201d<br><br>\u201eOdpowied\u017a: &lt;2>.\u201d<br><br>\u201eRozwi\u0105zanie to 3.\u201d<br><br>\u201e&lt;3>\u201d<\/code><\/p><p class=\"wp-block-paragraph\"><strong><mark style=\"background-color:#63b7ad\" class=\"has-inline-color\">Krok 3: przypisanie warto\u015bci nagr\u00f3d do odpowiedzi<\/mark><\/strong><\/p><p class=\"wp-block-paragraph\">Nagrody kieruj\u0105 procesem uczenia modelu. Okre\u015blaj\u0105 one jako\u015b\u0107 generowanej przez model odpowiedzi. S\u0105 wyra\u017cone w postaci liczb w skalach ci\u0105g\u0142ych lub dyskretnych. Weryfikacj\u0119 poprawno\u015bci odpowiedzi najcz\u0119\u015bciej przeprowadza si\u0119 za pomoc\u0105 regu\u0142 \u2013 mo\u017cna na przyk\u0142ad sprawdzi\u0107, czy odpowied\u017a jest liczb\u0105 lub czy jest prawid\u0142owa. Nagroda mo\u017ce by\u0107 r\u00f3wnie\u017c wyznaczana za pomoc\u0105 metamodelu, cho\u0107 eksperymenty wskazuj\u0105, \u017ce takie podej\u015bcie prowadzi czasem do niestabilno\u015bci treningu (wprowadzamy szum do oceny).<\/p><p class=\"wp-block-paragraph\">Przyk\u0142adowe rodzaje nagr\u00f3d wprowadzone podczas treningu Bielika w GRPO:<\/p><ul class=\"wp-block-list\"><li><strong>Nagrody za poprawno\u015b\u0107 rozwi\u0105zania zadania<\/strong>. Oczekiwana odpowied\u017a to 3. Je\u015bli jest prawid\u0142owa, to przyznajemy np. 2 punkty (nagroda), a je\u015bli nieprawid\u0142owa, to 0 (kara).<\/li>\n\n<li><strong>Nagrody za format odpowiedzi<\/strong>. Model odpowiada w formacie CoT, czyli na przyk\u0142ad generuje znaczniki sekcji my\u015blenia &lt;think&gt;&lt;\/think&gt; lub formatuje w\u0142a\u015bciwie odpowied\u017a &lt;3&gt; (w nawiasach tr\u00f3jk\u0105tnych). Zasada ta oceniana jest za pomoc\u0105 odpowiedniej regu\u0142y, a jej wynik mo\u017ce przyjmowa\u0107 warto\u015bci od 0 (nieprawid\u0142owy format) do 0.5 (ca\u0142kowita zgodno\u015b\u0107).<\/li>\n\n<li><strong>Nagrody za sp\u00f3jno\u015b\u0107 j\u0119zykow\u0105<\/strong>. Styl, d\u0142ugo\u015b\u0107 opisu, format itd. Liczba definicji funkcji nagr\u00f3d (czyli tego, za co oceniamy model) mo\u017ce by\u0107 du\u017ca \u2013 jedyne ograniczenia to fantazja tw\u00f3rc\u00f3w i mo\u017cliwo\u015b\u0107 sposobu jej weryfikacji.<\/li><\/ul><p class=\"wp-block-paragraph\">Przyk\u0142adowa ocena odpowiedzi:<\/p><p class=\"has-very-light-gray-background-color has-background wp-block-paragraph\"><code>\u201eWynikiem dzia\u0142ania 2+3-4*0.5 jest &lt;3>.\u201d \u2013 odpowied\u017a poprawna i dobrze sformatowana: 2.0 + 0.5 -> 2.5<br><br>\u201eCztery.\u201d \u2013 odpowied\u017a b\u0142\u0119dna i \u017ale sformatowana: 0.0 + 0.0 -> 0.0<br><br>\u201eTo &lt;2>.\u201d \u2013 odpowied\u017a b\u0142\u0119dna, poprawnie sformatowana: 0.0 + 0.5 -> 0.5<br><br>\u201eRozwi\u0105zanie to 3.\u201d \u2013 poprawna i \u017ale sformatowana: 2.0 + 0.0 -> 2.0<br><br>\u201e&lt;3>\u201d \u2013 poprawna i dobrze sformatowana: 2.0 + 0.5 -> 2.5<\/code><\/p><p class=\"wp-block-paragraph\"><strong><mark style=\"background-color:#63b7ad\" class=\"has-inline-color\">Krok 4. Por\u00f3wnanie odpowiedzi w grupie (<em>group advantage<\/em>)<\/mark><\/strong><\/p><p class=\"wp-block-paragraph\">Nagrody s\u0105 nast\u0119pnie normalizowane w obr\u0119bie ka\u017cdej grupy odpowiedzi. Obliczamy przewag\u0119 ka\u017cdej odpowiedzi wzgl\u0119dem grupy, dzi\u0119ki czemu model uczy si\u0119 nie na absolutnych warto\u015bciach nagr\u00f3d, tylko na wzgl\u0119dnych r\u00f3\u017cnicach mi\u0119dzy r\u00f3\u017cnymi odpowiedziami wygenerowanymi dla tego samego zadania. Odpowiedzi lepsze od \u015bredniej grupy dostaj\u0105 wy\u017csze warto\u015bci. Wspieramy konkurencj\u0119 w grupie, tak by model generowa\u0142 coraz lepsze odpowiedzi.<\/p><p class=\"wp-block-paragraph\"><strong><mark style=\"background-color:#63b7ad\" class=\"has-inline-color\">Krok 5. Aktualizacja polityki z obcinaniem (<em>clipping<\/em>)<\/mark><\/strong><\/p><p class=\"wp-block-paragraph\">Ograniczamy wp\u0142yw pojedynczych odpowiedzi na aktualizacj\u0119 polityki. Je\u015bli nowa polityka nadaje zbyt du\u017ce prawdopodobie\u0144stwo, obcinanie zapobiega nadmiernemu faworyzowaniu tej odpowiedzi.<\/p><p class=\"wp-block-paragraph\"><strong><mark style=\"background-color:#63b7ad\" class=\"has-inline-color\">Krok 6. Regularyzacja KL-divergence<\/mark><\/strong><\/p><p class=\"wp-block-paragraph\">Ostatecznie ograniczamy odchylenie nowej polityki od poprzedniej (modelu wzorcowego), aby zachowa\u0107 stabilno\u015b\u0107 treningu. Polega to na obliczeniu odleg\u0142o\u015bci mi\u0119dzy dystrybucjami modelu polityki oraz modelu oryginalnego (KL Divergence). Ten element funkcji straty zabezpiecza model przed znaczn\u0105 zmian\u0105 \u201echarakteru\u201d modelu, czyli np. generowaniem tre\u015bci, kt\u00f3re daj\u0105 maksymaln\u0105 nagrod\u0119, ale zmieniaj\u0105 pierwotny cel modelu.<\/p><p class=\"wp-block-paragraph\"><strong><mark style=\"background-color:#63b7ad\" class=\"has-inline-color\">Krok 7. Wyznaczenie warto\u015bci funkcji straty i aktualizacja wag modelu<\/mark><\/strong><\/p><p class=\"wp-block-paragraph\">Ostatecznie obliczamy warto\u015b\u0107 funkcji i aktualizujemy wagi modelu za pomoc\u0105 propagacji wstecznej. Jest to standardowa procedura wykonywana podczas treningu modeli AI.<\/p><p class=\"wp-block-paragraph\">Zauwa\u017cyli\u015bmy, \u017ce GRPO daje skuteczne mo\u017cliwo\u015bci optymalizacji modeli w zadaniach wymagaj\u0105cych rozumowania i wieloetapowego przetwarzania informacji.<\/p><p class=\"wp-block-paragraph\">Wz\u00f3r na funkcj\u0119 straty GRPO:<\/p><p class=\"wp-block-paragraph\"> <img loading=\"lazy\" decoding=\"async\" width=\"600\" height=\"159\" class=\"wp-image-9941\" style=\"width: 600px;\" src=\"https:\/\/haimagazine.com\/wp-content\/uploads\/2025\/03\/132_1.png\" alt=\"\" srcset=\"https:\/\/haimagazine.com\/wp-content\/uploads\/2025\/03\/132_1.png 934w, https:\/\/haimagazine.com\/wp-content\/uploads\/2025\/03\/132_1-300x80.png 300w, https:\/\/haimagazine.com\/wp-content\/uploads\/2025\/03\/132_1-768x204.png 768w, https:\/\/haimagazine.com\/wp-content\/uploads\/2025\/03\/132_1-600x159.png 600w\" sizes=\"auto, (max-width: 600px) 100vw, 600px\" \/><\/p><p class=\"wp-block-paragraph\">Wz\u00f3r na funkcj\u0119 wyznaczenia jako\u015bci odpowiedzi w grupie:<\/p><p class=\"wp-block-paragraph\"> <img loading=\"lazy\" decoding=\"async\" width=\"300\" height=\"75\" class=\"wp-image-9943\" style=\"width: 300px;\" src=\"https:\/\/haimagazine.com\/wp-content\/uploads\/2025\/03\/132_2.png\" alt=\"\" srcset=\"https:\/\/haimagazine.com\/wp-content\/uploads\/2025\/03\/132_2.png 522w, https:\/\/haimagazine.com\/wp-content\/uploads\/2025\/03\/132_2-300x75.png 300w\" sizes=\"auto, (max-width: 300px) 100vw, 300px\" \/><\/p><h4 class=\"wp-block-heading\"><strong>Obserwacje i wnioski treningowe modelu Bielik-R<\/strong><\/h4><p class=\"wp-block-paragraph\">Z sukcesem przeprowadzili\u015bmy pierwsze pr\u00f3by adaptacji Bielika do klasy modeli R, czyli \u201emy\u015bl\u0105cych\u201d. W ramach tych prac powsta\u0142o kilkana\u015bcie prototyp\u00f3w r\u00f3\u017cni\u0105cych si\u0119 mi\u0119dzy sob\u0105 stylem wypowiedzi, co wi\u0105za\u0142o si\u0119 bezpo\u015brednio z politykami nagr\u00f3d zdefiniowanymi podczas treningu. G\u0142\u00f3wna r\u00f3\u017cnica polega\u0142a na strukturze ci\u0105g\u00f3w my\u015bli \u2013 od bardzo kr\u00f3tkich (rozwi\u0105zanie krok po kroku) do d\u0142ugich monolog\u00f3w zawieraj\u0105cych weryfikacje ci\u0105gu rozumowania (\u201ezweryfikujmy rozwi\u0105zanie\u201d, \u201esprawd\u017amy\u201d, \u201eupro\u015b\u0107my\u201d). Z pewno\u015bci\u0105 stworzenie modelu klasy R daje obiecuj\u0105ce rezultaty i wyznacza kierunek naszych dalszych bada\u0144.<\/p><p class=\"wp-block-paragraph\">Przeprowadzaj\u0105c treningi za pomoc\u0105 GRPO, ze zdumieniem zauwa\u017cyli\u015bmy, \u017ce Bielik samodzielnie kszta\u0142towa\u0142 spos\u00f3b rozwi\u0105zywania problem\u00f3w. Wskazuje to na zdolno\u015b\u0107 modelu do samoorganizacji i rozwijania w\u0142asnych strategii decyzyjnych. W trakcie treningu mo\u017cna by\u0142o obserwowa\u0107 ewolucj\u0119 rozwoju \u0142a\u0144cuch\u00f3w my\u015bli. Proces ten przebiega\u0142 stopniowo w czasie. Model poszukiwa\u0142 sposobu na uzyskanie jak najwy\u017cszej punktacji przyznawanej przez funkcj\u0119 oceny. Dla niekt\u00f3rych regu\u0142 (np. format\u00f3w odpowiedzi) Bielik szybko je odkrywa\u0142. W innych przypadkach musia\u0142 wygenerowa\u0107 bardzo du\u017c\u0105 liczb\u0119 r\u00f3\u017cnych odpowiedzi, by ostatecznie dostosowa\u0107 si\u0119 do preferencji zdefiniowanych przez funkcj\u0119 nagrody.<\/p><p class=\"wp-block-paragraph\">Model generowa\u0142 tre\u015bci odzwierciedlaj\u0105ce poprawienie samego siebie \u2013 \u201eprzeb\u0142yski my\u015bli\u201d. Tak jakby w trakcie rozumowania zaczyna\u0142 dostrzega\u0107, \u017ce jego ci\u0105gi my\u015bli prowadz\u0105 do nieprawid\u0142owego rozwi\u0105zania, i wzdycha\u0142 z zaskoczeniem \u201eAha!\u201d. Te punkty zwrotne cz\u0119sto zmienia\u0142y dalszy spos\u00f3b rozwi\u0105zywania problemu. W wi\u0119kszo\u015bci przypadk\u00f3w prowadzi\u0142y do prawid\u0142owych rezultat\u00f3w.<\/p><p class=\"wp-block-paragraph\">Zach\u0119canie modelu do generowania d\u0142ugich odpowiedzi (poprzez zdefiniowanie funkcji nagrody promuj\u0105cej d\u0142u\u017csze ci\u0105gi my\u015bli) w przypadku prostych zada\u0144 prowadzi\u0142o do generowania zb\u0119dnych tre\u015bci o niskiej warto\u015bci merytorycznej i tym samym do przekazywania przez model nieprawid\u0142owego rozwi\u0105zania. Dla trudniejszych problem\u00f3w Bielik naturalnie generowa\u0142 znacznie d\u0142u\u017csze sekwencje my\u015blowe.<\/p><p class=\"wp-block-paragraph\">Podczas eksperymentowania wprowadzali\u015bmy zmiany do regu\u0142 oceny. Im bardziej z\u0142o\u017cona by\u0142a funkcja (pod wzgl\u0119dem liczby ocenianych element\u00f3w odpowiedzi), tym szybciej model znajdowa\u0142 spos\u00f3b na \u201eobej\u015bcie\u201d regu\u0142 i zaczyna\u0142 maksymalizowa\u0107 nagrod\u0119, w nieoczekiwany spos\u00f3b prowadz\u0105c do osi\u0105gni\u0119cia nieprzewidywalnych efekt\u00f3w (tzw. efekt hakowania funkcji nagrody).<\/p><p class=\"wp-block-paragraph\">Widzimy, \u017ce modele klasy R powinny by\u0107 budowane na \u201esilnych\u201d modelach bazowych \u2013 wysokiej jako\u015bci modelach potwierdzonych licznymi, wiarygodnymi pomiarami. Przeprowadzali\u015bmy testy adaptacji tak\u017ce na mniejszych wersjach modelu Bielik-1.5B, jednak jako\u015b\u0107 ich ci\u0105g\u00f3w my\u015bli znacznie odbiega\u0142a od jako\u015bci generowanych przez model Bielik-11B.<\/p><h4 class=\"wp-block-heading\"><strong>Co dalej z modelem Bielik-R?<\/strong><\/h4><p class=\"wp-block-paragraph\">Stworzenie prototypu Bielik-R to wa\u017cny krok w rozwoju polskich modeli j\u0119zykowych zdolnych do rozumowania. Implementacja metody GRPO pozwoli\u0142a na uzyskanie modelu, kt\u00f3ry nie tylko generuje odpowiedzi, ale tak\u017ce analizuje w\u0142asne rozwi\u0105zania, ucz\u0105c si\u0119 optymalnych strategii decyzyjnych. Wyniki eksperyment\u00f3w pokaza\u0142y, \u017ce model potrafi dostosowywa\u0107 spos\u00f3b my\u015blenia do charakteru problemu, a tak\u017ce przechodzi\u0107 przez proces poprawiania samego siebie, co stanowi obiecuj\u0105c\u0105 cech\u0119 dla przysz\u0142ych zastosowa\u0144.<\/p><p class=\"wp-block-paragraph\">Nasze do\u015bwiadczenia pokazuj\u0105, \u017ce modele my\u015bl\u0105ce mog\u0105 znacz\u0105co podnie\u015b\u0107 jako\u015b\u0107 generowanych tre\u015bci i \u017ce mo\u017cna b\u0119dzie je wykorzysta\u0107 w r\u00f3\u017cnych obszarach \u2013 od edukacji, poprzez asystent\u00f3w AI, a\u017c po bardziej zaawansowane systemy analizy danych. Pierwsze pr\u00f3by stworzenia modelu \u201emy\u015bl\u0105cego\u201d to dopiero pocz\u0105tek tej drogi.<\/p><p class=\"wp-block-paragraph\">W kolejnych krokach planujemy dalsze udoskonalanie mechanizm\u00f3w rozumowania Bielika oraz optymalizacj\u0119 funkcji nagrody w procesie treningu GRPO. Zamierzamy r\u00f3wnie\u017c poszerzy\u0107 zakres danych treningowych o bardziej zr\u00f3\u017cnicowane typy zada\u0144, co pozwoli modelowi rozwija\u0107 umiej\u0119tno\u015bci rozumowania w r\u00f3\u017cnych dziedzinach wiedzy. Rozw\u00f3j modelu Bielik-R to istotny krok w kierunku bardziej zaawansowanych system\u00f3w AI w j\u0119zyku polskim, kt\u00f3re nie tylko generuj\u0105 odpowiedzi, ale tak\u017ce \u201emy\u015bl\u0105\u201d w naszym rodzimym j\u0119zyku.<\/p><figure class=\"wp-block-image aligncenter\"><img decoding=\"async\" src=\"https:\/\/lh7-rt.googleusercontent.com\/docsz\/AD_4nXcp7twJ9vEP7gn3JL9NCXMyXNFedLrcyNuYB1VE-DqHASNaktqdL7G99r_JrNZO7q7SK2HWeVnDK60x43Ftext6k7_sJo8OByEeXEoThMJwQD0lUzgQ1mAbV9S82vvrb-dRKyT9maY12a5xEI-Gqlg?key=CxpWhprlKidyI6Wzk54j9vU3\" alt=\"Obraz zawieraj\u0105cy tekst, linia, diagram, Wykres\n\nZawarto\u015b\u0107 wygenerowana przez sztuczn\u0105 inteligencj\u0119 mo\u017ce by\u0107 niepoprawna.\"\/><figcaption class=\"wp-element-caption\">Rys. 1. Przyk\u0142ad funkcji nagrody zwi\u0105zanej z weryfikacj\u0105 ci\u0105gu my\u015bli. Po oko\u0142o 240 krokach nauki model zauwa\u017ca, \u017ce otrzyma dodatkow\u0105 nagrod\u0119, je\u015bli sprawdzi \u0142a\u0144cuch my\u015bli i wygeneruje tre\u015b\u0107 \u201eSprawdz\u0119, czy wszystko zrobi\u0142em prawid\u0142owo\u201d. Od tego momentu model coraz cz\u0119\u015bciej podsumowuje swoje dzia\u0142ania, a po oko\u0142o 400 krokach robi to ju\u017c w niemal wszystkich generowanych przyk\u0142adach.<\/figcaption><\/figure><figure class=\"wp-block-image aligncenter\"><img decoding=\"async\" src=\"https:\/\/lh7-rt.googleusercontent.com\/docsz\/AD_4nXd51HHlU8vfUXuY03rQ8JfeJpZ8VINjGyvjkNI-vYTtlp75Ec1qPplKFlAKfwKiBzPCD2WY_ID6GtY0iEUKJYoPFHrwHxJusaC8ypKBGqL7g3452tmAEac4s_YKruCYTC6zdlxV02bcox7jpAoEJg?key=CxpWhprlKidyI6Wzk54j9vU3\" alt=\"Obraz zawieraj\u0105cy linia, Wykres, Czcionka, diagram\n\nZawarto\u015b\u0107 wygenerowana przez sztuczn\u0105 inteligencj\u0119 mo\u017ce by\u0107 niepoprawna.\"\/><figcaption class=\"wp-element-caption\">Rys. 2. Wraz z post\u0119pem treningu Bielik coraz bardziej oddala si\u0119 od pierwotnej wersji \u2013 dostosowuje si\u0119 do preferencji wyznaczonych przez funkcje nagrody. Dzi\u0119ki zastosowaniu KL Divergence dbamy o balans mi\u0119dzy funkcjonalno\u015bci\u0105 modelu przed i po treningu.<\/figcaption><\/figure><figure class=\"wp-block-image aligncenter\"><img decoding=\"async\" src=\"https:\/\/lh7-rt.googleusercontent.com\/docsz\/AD_4nXc4YK6QAWaTVsX9EkFKddKKjKnHg-LbGjEh2J_00Zc4YLmyzNaniGiJ7fXKCSylQ08DL2-TPFPzdRWKxMrdGEUqI__-tp1oND_1qu5Z2XhXGBGl5TlpciILapx1lLFkvgMBq_xldQ7JL0X_xJkCGg?key=CxpWhprlKidyI6Wzk54j9vU3\" alt=\"Obraz zawieraj\u0105cy tekst, zrzut ekranu\n\nZawarto\u015b\u0107 wygenerowana przez sztuczn\u0105 inteligencj\u0119 mo\u017ce by\u0107 niepoprawna.\"\/><figcaption class=\"wp-element-caption\">Rys. 3. Cz\u0119\u015b\u0107 ci\u0105gu my\u015bli wygenerowana przez model Bielik-R (wersja prototypowa)<\/figcaption><\/figure><figure class=\"wp-block-image aligncenter\"><img decoding=\"async\" src=\"https:\/\/lh7-rt.googleusercontent.com\/docsz\/AD_4nXdSWiy6VVphXo27534VZxgiLSlo0ZKxuCpG4wyYEVy4G_7YJInEFVUzysdu-3vzzID5_dcjdTLlDDwQdscJAVVZ9G8kdJ5xeDmlP5MGPaRQESl1bDyfDRUu6cQDLXa7Hu1naKCEwXsl-_Ki_i48bY0?key=CxpWhprlKidyI6Wzk54j9vU3\" alt=\"Obraz zawieraj\u0105cy tekst, zrzut ekranu, Czcionka\n\nZawarto\u015b\u0107 wygenerowana przez sztuczn\u0105 inteligencj\u0119 mo\u017ce by\u0107 niepoprawna.\"\/><figcaption class=\"wp-element-caption\">Rys. 4. Ko\u0144cowa odpowied\u017a modelu Bielik-R (wersja prototypowa)<\/figcaption><\/figure><figure class=\"wp-block-image aligncenter\"><img decoding=\"async\" src=\"https:\/\/lh7-rt.googleusercontent.com\/docsz\/AD_4nXcRGDr-o2sD2caHux0f68Lm75Hnov2e0GGmD6RW4HDMzIlpUs1v4I5DnxWzYytTQGico4k2wjaRxiU8uGnW5z0qhC4NVC449SpFAdtkwPa4qooKOEDQnT_t_CSYWs6_DALS7itnuv596Wnpi3bXRbk?key=CxpWhprlKidyI6Wzk54j9vU3\" alt=\"Obraz zawieraj\u0105cy tekst, zrzut ekranu, Czcionka\n\nZawarto\u015b\u0107 wygenerowana przez sztuczn\u0105 inteligencj\u0119 mo\u017ce by\u0107 niepoprawna.\"\/><figcaption class=\"wp-element-caption\">Rys. 5. Autorefleksja \u2013 model \u201eprzeanalizowa\u0142\u201d ci\u0105g my\u015bli, kt\u00f3ry okaza\u0142 si\u0119 nieprawid\u0142owy, i w efekcie zmieni\u0142 metod\u0119 rozwi\u0105zania zadania.<\/figcaption><\/figure>","protected":false},"excerpt":{"rendered":"<p>Modele \u201emy\u015bl\u0105ce\u201d typu R to standard, kt\u00f3ry znajduje si\u0119 ju\u017c niemal we wszystkich wiod\u0105cych rodzinach du\u017cych modeli j\u0119zykowych. Nasz rodzimy Bielik r\u00f3wnie\u017c trzyma r\u0119k\u0119 na pulsie i podejmuje pierwsze pr\u00f3by stworzenia wersji, kt\u00f3ra b\u0119dzie umia\u0142a przeprowadza\u0107 logiczne wnioskowanie w j\u0119zyku polskim.<\/p>\n","protected":false},"author":257,"featured_media":9897,"comment_status":"closed","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"_acf_changed":false,"rank_math_lock_modified_date":false,"footnotes":""},"categories":[612,763,402,754],"tags":[],"popular":[],"difficulty-level":[37],"ppma_author":[636],"class_list":["post-9446","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-numer-4","category-ai_praktyka","category-hai-magazine","category-hai_premium","difficulty-level-hard"],"acf":[],"authors":[{"term_id":636,"user_id":257,"is_guest":0,"slug":"remigiusz-kinas","display_name":"Remgiusz Kinas","avatar_url":{"url":"https:\/\/haimagazine.com\/wp-content\/uploads\/2025\/03\/Remigiusz_Kinas.jpg","url2x":"https:\/\/haimagazine.com\/wp-content\/uploads\/2025\/03\/Remigiusz_Kinas.jpg"},"first_name":"Remgiusz","last_name":"Kinas","user_url":"","job_title":"","description":"Specjalista w dziedzinie sztucznej inteligencji. Zaanga\u017cowany w projekty badawczo-rozwojowe dot. wizji komputerowej i generatywnej AI (tworzenia modeli LLM\/vLLM). Aktywnie uczestniczy w \u017cyciu spo\u0142eczno\u015bci SpeakLeash skupionej wok\u00f3\u0142 polskiego modelu j\u0119zykowego Bielik. Ma tytu\u0142 podw\u00f3jnego Grand Mastera Kaggle."}],"_links":{"self":[{"href":"https:\/\/haimagazine.com\/pl\/wp-json\/wp\/v2\/posts\/9446","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/haimagazine.com\/pl\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/haimagazine.com\/pl\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/haimagazine.com\/pl\/wp-json\/wp\/v2\/users\/257"}],"replies":[{"embeddable":true,"href":"https:\/\/haimagazine.com\/pl\/wp-json\/wp\/v2\/comments?post=9446"}],"version-history":[{"count":5,"href":"https:\/\/haimagazine.com\/pl\/wp-json\/wp\/v2\/posts\/9446\/revisions"}],"predecessor-version":[{"id":9945,"href":"https:\/\/haimagazine.com\/pl\/wp-json\/wp\/v2\/posts\/9446\/revisions\/9945"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/haimagazine.com\/pl\/wp-json\/wp\/v2\/media\/9897"}],"wp:attachment":[{"href":"https:\/\/haimagazine.com\/pl\/wp-json\/wp\/v2\/media?parent=9446"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/haimagazine.com\/pl\/wp-json\/wp\/v2\/categories?post=9446"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/haimagazine.com\/pl\/wp-json\/wp\/v2\/tags?post=9446"},{"taxonomy":"popular","embeddable":true,"href":"https:\/\/haimagazine.com\/pl\/wp-json\/wp\/v2\/popular?post=9446"},{"taxonomy":"difficulty-level","embeddable":true,"href":"https:\/\/haimagazine.com\/pl\/wp-json\/wp\/v2\/difficulty-level?post=9446"},{"taxonomy":"author","embeddable":true,"href":"https:\/\/haimagazine.com\/pl\/wp-json\/wp\/v2\/ppma_author?post=9446"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}