{"id":9434,"date":"2025-03-31T10:00:00","date_gmt":"2025-03-31T08:00:00","guid":{"rendered":"https:\/\/haimagazine.com\/?p=9434"},"modified":"2025-06-18T10:18:37","modified_gmt":"2025-06-18T08:18:37","slug":"deepseek-przyczajony-tygrys","status":"publish","type":"post","link":"https:\/\/haimagazine.com\/pl\/hai-magazine\/numer-4\/deepseek-przyczajony-tygrys\/","title":{"rendered":"\ud83d\udd12 DeepSeek \u2013 przyczajony tygrys"},"content":{"rendered":"<p>DeepSeek to chi\u0144ska firma, kt\u00f3ra niedawno opublikowa\u0142a seri\u0119 modeli j\u0119zykowych w wersji open-source, w tym model DeepSeek-V3 oraz dwie wersje modelu ukierunkowanego na rozumowanie: DeepSeek-R1-Zero (trenowany wy\u0142\u0105cznie poprzez uczenie ze wzmocnieniem) oraz DeepSeek-R1 (kt\u00f3ry wykorzystuje wieloetapowe podej\u015bcie do treningu). I cho\u0107 codziennie gdzie\u015b na \u015bwiecie publikuje si\u0119 nowe modele, to w\u0142a\u015bnie ten konkretny zestaw na chwil\u0119 dos\u0142ownie wstrz\u0105sn\u0105\u0142 \u015bwiatem technologii i biznesu i to tak, \u017ce zawrza\u0142o na gie\u0142dzie. Dlaczego?<\/p><figure class=\"wp-block-image aligncenter\"><img decoding=\"async\" src=\"https:\/\/lh7-rt.googleusercontent.com\/docsz\/AD_4nXcIgxGT9NFHKKJ2q0nvs2v_ozo4PrPlDgsxUERCVvPEhXPdwKZpDwlVJCD3b4t-hbUBTQbeRUaT797U431EJZmpNFhcD537oIGy22A1pjjcXUOQnKKmvfXgi_xuodvvmuP2H3rFQeXPDX9RWhl86Vk?key=VDK5RfnjWPU5lV0Wqr-9bh2E\" alt=\"\"\/><figcaption class=\"wp-element-caption\">Oryginalny schemat z artyku\u0142u o DeepSeek-V3<\/figcaption><\/figure><h4 class=\"wp-block-heading\"><strong>Transformer z\u2026 twistem?<\/strong><\/h4><p>Architektura DeepSeek bazuje na klasycznej architekturze typu transformer (om\u00f3wionej szczeg\u00f3\u0142owo w \u201ehAI Magazine\u201d nr 1\/2024), z t\u0105 kluczow\u0105 r\u00f3\u017cnic\u0105, \u017ce standardowe warstwy <em>feed-forward<\/em> zosta\u0142y zast\u0105pione warstwami MoE (Mixture of Experts). W warstwach MoE zamiast jednej sieci <em>feed-forward<\/em>, mamy zestaw ekspert\u00f3w (r\u00f3wnie\u017c sieci <em>feed-forward<\/em>) oraz zaawansowany system ich wyboru, kt\u00f3ry decyduje, kt\u00f3rzy eksperci b\u0119d\u0105 przetwarza\u0107 dany token. Takie podej\u015bcie pozwala modelowi osi\u0105ga\u0107 wyniki por\u00f3wnywalne z wiod\u0105cymi modelami zamkni\u0119tymi, przy r\u00f3wnoczesnym zachowaniu efektywno\u015bci obliczeniowej.<\/p><p class=\"has-background\" style=\"background-color:#97372a\"><mark style=\"background-color:rgba(0, 0, 0, 0)\" class=\"has-inline-color has-base-color\"><strong>Ciekawostka<\/strong><br><\/mark><br><mark style=\"background-color:rgba(0, 0, 0, 0)\" class=\"has-inline-color has-base-color\">Architektura MoE by\u0142a wcze\u015bniej stosowana w r\u00f3\u017cnych modelach j\u0119zykowych. Jednym z pierwszych publicznie dost\u0119pnych du\u017cych modeli, kt\u00f3re j\u0105 wykorzystywa\u0142y, by\u0142 Mixtral opublikowany w grudniu 2023 r.<\/mark><\/p><p class=\"has-text-align-center\"> <img loading=\"lazy\" decoding=\"async\" width=\"800\" height=\"491\" class=\"wp-image-9949\" style=\"width: 800px;\" src=\"https:\/\/haimagazine.com\/wp-content\/uploads\/2025\/03\/121_1.png\" alt=\"\" srcset=\"https:\/\/haimagazine.com\/wp-content\/uploads\/2025\/03\/121_1.png 1266w, https:\/\/haimagazine.com\/wp-content\/uploads\/2025\/03\/121_1-300x184.png 300w, https:\/\/haimagazine.com\/wp-content\/uploads\/2025\/03\/121_1-1024x628.png 1024w, https:\/\/haimagazine.com\/wp-content\/uploads\/2025\/03\/121_1-768x471.png 768w, https:\/\/haimagazine.com\/wp-content\/uploads\/2025\/03\/121_1-600x368.png 600w\" sizes=\"auto, (max-width: 800px) 100vw, 800px\" \/><br>Rysunek 2. Uproszczony schemat z artyku\u0142u o DeepSeek-V3<\/p><h4 class=\"wp-block-heading\"><strong>Jak to si\u0119 ma do klasycznego podej\u015bcia?<\/strong><\/h4><p class=\"has-text-align-left\">Klasyczne transformery (np. Llama-2, GPT-3, BERT) sk\u0142adaj\u0105 si\u0119 z nast\u0119puj\u0105cych po sobie warstw, z kt\u00f3rych ka\u017cda zawiera okre\u015blon\u0105 liczb\u0119 parametr\u00f3w.<br><br>W trakcie przetwarzania tokena przez model do obliczenia wyniku wykorzystywane s\u0105 wszystkie parametry \u2013 <strong>aktywny jest ka\u017cdy parametr w ka\u017cdej warstwie<\/strong>. Takie podej\u015bcie dzia\u0142a, ale w zestawieniu z podej\u015bciem MoE jest ono drogie i nieefektywne.<br><br>W uproszczeniu mo\u017cna to por\u00f3wna\u0107 z dysponowaniem grup\u0105 ekspert\u00f3w: mechanikiem samochodowym, szefem kuchni, ornitologiem. Ka\u017cdy z nich ma podejmowa\u0107 ka\u017cd\u0105 pojedyncz\u0105 decyzj\u0119, nawet je\u015bli ta nie jest zwi\u0105zana z ich specjalno\u015bci\u0105.<br><br>W<strong> DeepSeek<\/strong> natomiast do przetwarzania ka\u017cdego tokena <strong>wykorzystywane s\u0105 tylko wybrane sieci eksperckie<\/strong>: najpierw dopasowujemy ekspert\u00f3w do tokena, a dopiero potem zadajemy pytanie. Dzi\u0119ki temu nie dochodzi do sytuacji, w kt\u00f3rych o l\u0119gowe zwyczaje bociana pytamy kucharza czy mechanika samochodowego.<\/p><h4 class=\"wp-block-heading\"><strong>Co odr\u00f3\u017cnia DeepSeek od Mixtrala?<\/strong><\/h4><p>W implementacji MoE DeepSeek wykorzystuje zaawansowany system rotacji z kluczow\u0105 innowacj\u0105 w postaci strategii balansowania dopasowania (ang. <em>auxiliary-loss-free balancing strategy<\/em>). W ka\u017cdej z 58 warstw MoE \u2013 z wyj\u0105tkiem trzech pierwszych \u2013 model wybiera dziewi\u0119ciu ekspert\u00f3w do predykcji kolejnego tokena: jednego wsp\u00f3\u0142dzielonego eksperta (<em>shared expert<\/em>) i o\u015bmiu wyspecjalizowanych. Ka\u017cdy ekspert to sie\u0107 jednokierunkowa&nbsp; o strukturze 7168 \u2192 2048 \u2192 7168 neuron\u00f3w.<\/p><p>Wyb\u00f3r ekspert\u00f3w polega na ustaleniu podobie\u0144stwa mi\u0119dzy tokenem a dost\u0119pnymi ekspertami, a nast\u0119pnie wybraniu tych najlepiej dopasowanych do wej\u015bcia.<\/p><p>Podobie\u0144stwo okre\u015bla si\u0119 poprzez obliczenie wsp\u00f3\u0142czynnika dopasowania (<em>affinity score<\/em>), kt\u00f3ry z kolei polega na por\u00f3wnaniu tokena wej\u015bciowego (a dok\u0142adniej jego wektorowej reprezentacji) z centroidem eksperta. Matematycznie jest to zdefiniowane jako funkcja sigmoidalna iloczynu skalarnego reprezentacji tokena i centroidu eksperta.<\/p><p>Do predykcji wybieranych jest 8 spo\u015br\u00f3d 256 wyspecjalizowanych ekspert\u00f3w \u2013 tych, kt\u00f3rzy odznaczaj\u0105 si\u0119 najwy\u017cszym skorygowanym wsp\u00f3\u0142czynnikiem dopasowania. Do tego dochodzi zawsze aktywny ekspert wsp\u00f3\u0142dzielony.<\/p><p>Obecny w ka\u017cdej predykcji wsp\u00f3\u0142dzielony ekspert pomaga zapewni\u0107 stabilno\u015b\u0107 i sp\u00f3jno\u015b\u0107 wynik\u00f3w, podczas gdy eksperci wyspecjalizowani mog\u0105 skupi\u0107 si\u0119 na konkretnych aspektach przetwarzania j\u0119zyka.<\/p><p class=\"has-background\" style=\"background-color:#97372a\"><mark style=\"background-color:rgba(0, 0, 0, 0)\" class=\"has-inline-color has-base-color\"><strong>Ciekawostka<\/strong><br><\/mark><br><mark style=\"background-color:rgba(0, 0, 0, 0)\" class=\"has-inline-color has-base-color\">DeepSeek-V3 podczas treningu wykorzystuje mechanizm <strong><em>expert bias<\/em> \u2013<\/strong> je\u015bli z eksperta korzysta si\u0119 zbyt cz\u0119sto, jego priorytet jest zmniejszany, a je\u015bli zbyt rzadko \u2013 zwi\u0119kszany. Czyli podobnie jak w restauracji, gdzie kierownik obserwuje ob\u0142o\u017cenie stolik\u00f3w i na bie\u017c\u0105co przydziela do nich kelner\u00f3w.<\/mark><\/p><h4 class=\"wp-block-heading\"><strong>Multi-Token Prediction<\/strong><\/h4><p>Warto r\u00f3wnie\u017c wspomnie\u0107, \u017ce model wykorzystuje technik\u0119 przewidywania wielokrotnego MTP (Multi-Token Prediction), kt\u00f3ra opr\u00f3cz przewidywania tylko drugiego tokena, przewiduje r\u00f3wnie\u017c token nast\u0119puj\u0105cy po nim, co z kolei poprawia jako\u015b\u0107 predykcji i pr\u0119dko\u015b\u0107 dekodowania. Mogliby\u015bmy to por\u00f3wna\u0107 do zachowania szachisty, kt\u00f3ry planuje kilka ruch\u00f3w do przodu. DeepSeek-V3 przewiduje dwa takie kroki naraz. W celu uzyskania mo\u017cliwo\u015bci predykcji kilku token\u00f3w w prz\u00f3d model jest rozbudowywany o tak zwane modu\u0142y MTP (sieci neuronowe). Przyk\u0142adowo, je\u015bli chcemy przewidywa\u0107 trzy tokeny w prz\u00f3d, to powinni\u015bmy do\u0142\u0105czy\u0107 do architektury modelu dwa dodatkowe modu\u0142y MTP.<\/p><p class=\"has-text-align-center\"> <img loading=\"lazy\" decoding=\"async\" width=\"800\" height=\"361\" class=\"wp-image-9951\" style=\"width: 800px;\" src=\"https:\/\/haimagazine.com\/wp-content\/uploads\/2025\/03\/122_1.png\" alt=\"\" srcset=\"https:\/\/haimagazine.com\/wp-content\/uploads\/2025\/03\/122_1.png 1166w, https:\/\/haimagazine.com\/wp-content\/uploads\/2025\/03\/122_1-300x135.png 300w, https:\/\/haimagazine.com\/wp-content\/uploads\/2025\/03\/122_1-1024x462.png 1024w, https:\/\/haimagazine.com\/wp-content\/uploads\/2025\/03\/122_1-768x346.png 768w, https:\/\/haimagazine.com\/wp-content\/uploads\/2025\/03\/122_1-600x271.png 600w\" sizes=\"auto, (max-width: 800px) 100vw, 800px\" \/><br>Rysunek 3. Oryginalny schemat z artyku\u0142u o DeepSeek-V3, z MTP<\/p><p><strong><mark style=\"background-color:rgba(0, 0, 0, 0);color:#bc4637\" class=\"has-inline-color\">Przyk\u0142ad dzia\u0142ania rotacji ekspert\u00f3w:<\/mark><\/strong><\/p><p><strong><mark style=\"background-color:rgba(0, 0, 0, 0);color:#bc4637\" class=\"has-inline-color\">Eksperci s\u0105 wybierani osobno dla ka\u017cdego tokena wej\u015bciowego. Przyk\u0142adowo, dla zdania \u201eKoty lubi\u0105 matematyk\u0119\u201d:<\/mark><\/strong><\/p><figure class=\"wp-block-table\"><table class=\"has-background has-fixed-layout\" style=\"background-color:#bc4637\"><tbody><tr><td><mark style=\"background-color:rgba(0, 0, 0, 0)\" class=\"has-inline-color has-base-color\">Token <strong>\u201eKoty\u201d<\/strong><\/mark><\/td><td><mark style=\"background-color:rgba(0, 0, 0, 0)\" class=\"has-inline-color has-base-color\">Token <strong>\u201elubi\u0105\u201d<\/strong><\/mark><\/td><td><mark style=\"background-color:rgba(0, 0, 0, 0)\" class=\"has-inline-color has-base-color\">Token <strong>\u201ematematyk\u0119\u201d<\/strong><\/mark><\/td><\/tr><tr><td><mark style=\"background-color:rgba(0, 0, 0, 0)\" class=\"has-inline-color has-base-color\">otrzymuje sw\u00f3j w\u0142asny zestaw 8 ekspert\u00f3w rotuj\u0105cych i jednego wsp\u00f3\u0142dzielonego na ka\u017cd\u0105 warstw\u0119. Zestaw mo\u017ce specjalizowa\u0107 si\u0119 np. w zwierz\u0119tach.<\/mark><\/td><td><mark style=\"background-color:rgba(0, 0, 0, 0)\" class=\"has-inline-color has-base-color\">otrzymuje inny zestaw 8 ekspert\u00f3w rotuj\u0105cych i jednego wsp\u00f3\u0142dzielonego, kt\u00f3re mog\u0105 specjalizowa\u0107 si\u0119 w s\u0142owach og\u00f3lnych i czasownikach.<\/mark><\/td><td><mark style=\"background-color:rgba(0, 0, 0, 0)\" class=\"has-inline-color has-base-color\">otrzymuje kolejny unikatowy zestaw 8 ekspert\u00f3w rotuj\u0105cych i jednego wsp\u00f3\u0142dzielonego, kt\u00f3re mog\u0105 specjalizowa\u0107 si\u0119 w terminach naukowych i matematycznych.<\/mark><\/td><\/tr><\/tbody><\/table><\/figure><h4 class=\"wp-block-heading\"><strong>Ograniczenia fizyczne<\/strong><\/h4><p>I chocia\u017c model DeepSeek-V3 ma 671 mld parametr\u00f3w, to dzi\u0119ki wspomnianemu systemowi rotacji ekspert\u00f3w i uruchamianiu jedynie wybranych, model w rzeczywisto\u015bci u\u017cywa jednocze\u015bnie tylko 37 mld parametr\u00f3w. Nie oznacza to jednak, \u017ce wystarczy za\u0142adowa\u0107 ich tyle do pami\u0119ci. Je\u015bli chcemy, \u017ceby model dzia\u0142a\u0142 poprawnie, to powinni\u015bmy wczyta\u0107 do GPU wszystkie parametry, bo ka\u017cdy token wej\u015bcia do aktywacji b\u0119dzie wymaga\u0142 osobnego zestawu. Czyli w rzeczywisto\u015bci podczas u\u017cytkowania takiego modelu b\u0119dziemy wykorzystywa\u0107 wszystkie jego parametry \u2013 cho\u0107 nie naraz.<\/p><p>Kolejnym ograniczeniem jest fakt, \u017ce ka\u017cdy token mo\u017ce wykorzystywa\u0107 ekspert\u00f3w z maksymalnie 4 w\u0119z\u0142\u00f3w (GPU). To oznacza z kolei, \u017ce nawet je\u015bli eksperci s\u0105 rozdzieleni na wi\u0119cej ni\u017c 4 cz\u0119\u015bci (np. model wczytany na 8 GPU), to jeden token mo\u017ce korzysta\u0107 jedynie z ekspert\u00f3w z 4 w\u0119z\u0142\u00f3w. To ograniczenie wprowadzono dla optymalizacji komunikacji mi\u0119dzy GPU.<\/p><p>Mo\u017ce to oznacza\u0107, \u017ce cz\u0119\u015b\u0107 ekspert\u00f3w cz\u0119sto u\u017cywanych mo\u017ce nie \u201eza\u0142apa\u0107 si\u0119\u201d na jeden wsp\u00f3lny w\u0119ze\u0142. Dlatego DeepSeek przyszed\u0142 z kolejnym rozwi\u0105zaniem.<\/p><h4 class=\"wp-block-heading\"><strong>Jak dzia\u0142a duplikacja ekspert\u00f3w z wysokim obci\u0105\u017ceniem?<\/strong><\/h4><p>System monitoruje statystyki u\u017cycia ekspert\u00f3w podczas dzia\u0142ania. Co oko\u0142o 10 min cz\u0119sto u\u017cywani eksperci s\u0105 identyfikowani, a ich rozmieszczenie na w\u0119z\u0142ach (GPU) zostaje zaktualizowane. Celem tych nadmiarowych ekspert\u00f3w jest optymalizacja obci\u0105\u017cenia podczas inferencji.<\/p><h4 class=\"wp-block-heading\"><strong>Jak wytrenowa\u0107 model do my\u015blenia?<\/strong><\/h4><p>Modele DeepSeek z serii R (od <em>reasoning<\/em>) przed wykonaniem zadania \u201emy\u015bl\u0105\u201d \u2013 wykorzystuj\u0105 podej\u015bcie \u0142a\u0144cucha rozumowania (Chain-of-Thought), kt\u00f3re jest znan\u0105 metod\u0105 poprawy jako\u015bci wynik\u00f3w modelu. Standardowe podej\u015bcie do stworzenia modelu, kt\u00f3ry umie tak rozumowa\u0107, polega na zebraniu du\u017cego zbioru danych treningowych z przyk\u0142adami zada\u0144 i poprzedzaj\u0105cym je rozumowaniem \u2013 to klasyczny trening nadzorowany.<\/p><figure class=\"wp-block-table is-style-stripes\"><table class=\"has-fixed-layout\"><tbody><tr><td><strong>Prompt (przet\u0142umaczony z j\u0119z. angielskiego):<\/strong><br><code><br>Konwersacja mi\u0119dzy U\u017cytkownikiem a Asystentem. U\u017cytkownik zadaje pytanie, a Asystent je rozwi\u0105zuje. Asystent najpierw my\u015bli nad procesem rozumowania, a nast\u0119pnie przedstawia odpowied\u017a. Proces rozumowania i odpowied\u017a s\u0105 zawarte odpowiednio w znacznikach &lt;think> &lt;\/think> i &lt;answer> &lt;\/answer>, np. &lt;think> proces rozumowania &lt;\/think> &lt;answer> odpowied\u017a &lt;\/answer>.<\/code><\/td><\/tr><\/tbody><\/table><\/figure><p>Przygotowanie takiego zbioru treningowego by\u0142oby bardzo kosztowne. Wymaga\u0142oby zatrudnienia ekspert\u00f3w z r\u00f3\u017cnych dziedzin \u2013 musieliby oni zapisywa\u0107 sw\u00f3j proces my\u015blenia przy rozwi\u0105zywaniu problem\u00f3w, np. podczas pisania algorytmu czy debugowania kodu. Zamiast tego rozwi\u0105zania autorzy zdecydowali si\u0119 wykorzysta\u0107 uczenie ze wzmocnieniem (<em>reinforcement learning<\/em>, opisany w \u201ehAI Magazine\u201d nr 2\/2024). W tym podej\u015bciu model generuje wiele r\u00f3\u017cnych wersji wyj\u015b\u0107 i nagradzany jest zar\u00f3wno za proces my\u015blenia, jak i za prawid\u0142owe odpowiedzi.<\/p><h4 class=\"wp-block-heading\"><strong>Pi\u0119kno czystego RL: DeepSeek-R1-Zero<\/strong><\/h4><p>W artykule zaproponowano dwa typy nagr\u00f3d regu\u0142owych:<\/p><ul class=\"wp-block-list\"><li><strong>nagroda za poprawno\u015b\u0107 (<\/strong><strong><em>accuracy reward<\/em><\/strong><strong>):<\/strong> przyznawana, gdy odpowied\u017a jest poprawna \u2013 na przyk\u0142ad w zadaniach matematycznych model mia\u0142 zwraca\u0107 wynik w konkretnym formacie (powiedzmy: w nawiasach kwadratowych), kt\u00f3ry m\u00f3g\u0142 by\u0107 automatycznie sprawdzony,<\/li>\n\n<li><strong>nagroda za my\u015blenie (<\/strong><strong><em>format reward<\/em><\/strong><strong>): <\/strong>dodatkowo model otrzymywa\u0142 nagrod\u0119 wtedy, gdy dodawa\u0142 sw\u00f3j proces my\u015blowy mi\u0119dzy znacznikami &lt;think&gt; i &lt;\/think&gt;.<\/li><\/ul><p>Taka metoda, oparta na regu\u0142ach, usprawnia proces treningu. Dla kontrastu, w oryginalym podej\u015bciu z artyku\u0142u OpenAI wykorzystuje si\u0119 PPO (Proximal Policy Optimization) i model nagrody \u201es\u0119dziego\/krytyka\u201d. Model nagrody jest zazwyczaj du\u017cym modelem j\u0119zykowym, tej samej wielko\u015bci, co model trenowany, kt\u00f3ry s\u0142u\u017cy do oceny odpowiedzi generowanej przez model podczas treningu.<\/p><h4 class=\"wp-block-heading\"><strong>Jak pozby\u0107 si\u0119 krytyka<\/strong><\/h4><p>W DeepSeek mamy zestaw regu\u0142 oraz GRPO (Group Policy Optimization), kt\u00f3re szacuj\u0105 tzw. \u201epunkty przewagi\u201d (<em>advantage<\/em>), czyli ustalaj\u0105, na ile dana akcja jest lepsza lub gorsza od bazowej. Jak oblicza si\u0119 tak\u0105 przewag\u0119? Ot\u00f3\u017c za pomoc\u0105 relatywnych nagr\u00f3d wewn\u0105trz niewielkiej \u201egrupy\u201d pr\u00f3bek. A grupa to po prostu zbi\u00f3r kilku r\u00f3wnoleg\u0142ych odpowiedzi wygenerowanych przez model w reakcji na to samo wej\u015bcie.<\/p><p>Dla ka\u017cdej odpowiedzi z grupy przyznawana jest nagroda (np. za poprawno\u015b\u0107). Nast\u0119pnie, GRPO por\u00f3wnuje odpowied\u017a <em>relatywnie<\/em> do innych w grupie: te lepsze otrzymuj\u0105 przewag\u0119 dodatni\u0105, a gorsze ujemn\u0105.<\/p><p>Co wa\u017cne, punkty przewagi s\u0105 normalizowane poprzez:<\/p><ul class=\"wp-block-list\"><li>odj\u0119cie \u015bredniej warto\u015bci nagr\u00f3d w grupie,<\/li>\n\n<li>podzielenie przez odchylenie standardowe grupy.<\/li><\/ul><p>GRPO wykorzystuje tak\u017ce tzw. \u201edywergencj\u0119 KL\u201d mi\u0119dzy modelem polityki a modelem referencyjnym, co pomaga utrzyma\u0107 stabilno\u015b\u0107 podczas treningu.<\/p><p>Na koniec aktualizujemy sie\u0107 polityki (<em>policy network<\/em>) poprzez zwi\u0119kszanie prawdopodobie\u0144stwa tych odpowiedzi, kt\u00f3re okaza\u0142y si\u0119 relatywnie lepsze. W ten spos\u00f3b mo\u017cemy trenowa\u0107 model, pomijaj\u0105c kosztowne opinie s\u0119dziego.<\/p><p class=\"has-text-align-center\"> <img loading=\"lazy\" decoding=\"async\" width=\"800\" height=\"342\" class=\"wp-image-9953\" style=\"width: 800px;\" src=\"https:\/\/haimagazine.com\/wp-content\/uploads\/2025\/03\/125_1.png\" alt=\"\" srcset=\"https:\/\/haimagazine.com\/wp-content\/uploads\/2025\/03\/125_1.png 1166w, https:\/\/haimagazine.com\/wp-content\/uploads\/2025\/03\/125_1-300x128.png 300w, https:\/\/haimagazine.com\/wp-content\/uploads\/2025\/03\/125_1-1024x437.png 1024w, https:\/\/haimagazine.com\/wp-content\/uploads\/2025\/03\/125_1-768x328.png 768w, https:\/\/haimagazine.com\/wp-content\/uploads\/2025\/03\/125_1-600x256.png 600w\" sizes=\"auto, (max-width: 800px) 100vw, 800px\" \/><br>Rysunek 4. Uproszczone por\u00f3wnanie GRPO vs PPO (z DeepSeekMath)<\/p><p class=\"has-text-align-center\"> <img loading=\"lazy\" decoding=\"async\" width=\"800\" height=\"360\" class=\"wp-image-9955\" style=\"width: 800px;\" src=\"https:\/\/haimagazine.com\/wp-content\/uploads\/2025\/03\/125_2.png\" alt=\"\" srcset=\"https:\/\/haimagazine.com\/wp-content\/uploads\/2025\/03\/125_2.png 1419w, https:\/\/haimagazine.com\/wp-content\/uploads\/2025\/03\/125_2-300x135.png 300w, https:\/\/haimagazine.com\/wp-content\/uploads\/2025\/03\/125_2-1024x461.png 1024w, https:\/\/haimagazine.com\/wp-content\/uploads\/2025\/03\/125_2-768x346.png 768w, https:\/\/haimagazine.com\/wp-content\/uploads\/2025\/03\/125_2-600x270.png 600w\" sizes=\"auto, (max-width: 800px) 100vw, 800px\" \/><br>Rysunek 5. Oryginalne por\u00f3wnanie PPO\/GRPO z DeepSeekMath<\/p><p>Takie podej\u015bcie przyspiesza trening, ale w przypadku nagrody za poprawno\u015b\u0107 wymaga zbudowania zbioru z referencyjnymi odpowiedziami.<\/p><h4 class=\"wp-block-heading\"><strong>Gdy model ma czas pomy\u015ble\u0107<\/strong><\/h4><p>Autorzy podkre\u015blali, \u017ce gdy model mia\u0142 \u201ewi\u0119cej czasu na my\u015blenie\u201d:<\/p><ul class=\"wp-block-list\"><li><strong>wzrasta\u0142y d\u0142ugo\u015bci odpowiedzi \u2013<\/strong> model pocz\u0105tkowo generowa\u0142 proste, ale z czasem coraz d\u0142u\u017csze procesy my\u015blowe,<\/li>\n\n<li><strong>doznawa\u0142 <\/strong><strong>\u201e<\/strong><strong>ol\u015bnienia\u201d \u2013<\/strong> wywo\u0142ywa\u0142o to dalsz\u0105 autorefleksj\u0119, a on automatycznie po\u015bwi\u0119ca\u0142 wi\u0119cej czasu na przemy\u015blenie problemu, wraca\u0142 do poprzednich krok\u00f3w i weryfikowa\u0142 ich poprawno\u015b\u0107 albo eksplorowa\u0142 alternatywne podej\u015bcia.<\/li><\/ul><p>Co szczeg\u00f3lnie istotne, zachowania te pojawi\u0142y si\u0119 samoistnie \u2013 autorzy nie programowali modelu wprost, by robi\u0142 \u201epauzy\u201d czy doznawa\u0142 \u201eol\u015bnie\u0144\u201d. Te zachowania wy\u0142oni\u0142y si\u0119 naturalnie w procesie <em>reinforcement learning<\/em>. Cytuj\u0105c autor\u00f3w, takie wykszta\u0142cone zachowanie jedynie \u201epodkre\u015bla pot\u0119g\u0119 i pi\u0119kno uczenia ze wzmocnieniem\u201d, oraz \u201estanowi przypomnienie, \u017ce RL ma potencja\u0142 odkrycia nowych poziom\u00f3w inteligencji sztucznej\u201d.<\/p><figure class=\"wp-block-image aligncenter\"><img decoding=\"async\" src=\"https:\/\/lh7-rt.googleusercontent.com\/docsz\/AD_4nXfH3uJaSG-M__6Wtq8GetU_O4QDBk8IQCAFfFL-bJTh9JLPyXwo9EE16k1nUQEkInGxjNwEpK7C-aujPJE4cv9L7h_9ZX6VwMsZfwDvKFlH0cm3ZKOsjIWXTh1oiDLx64Z-WIxxQODIi4Hz_YvUBw?key=VDK5RfnjWPU5lV0Wqr-9bh2E\" alt=\"\"\/><figcaption class=\"wp-element-caption\">Rysunek 6. Wyd\u0142u\u017caj\u0105cy si\u0119 czas rozumowania podczas treningu DeepSeek-R1<\/figcaption><\/figure><p>Mimo dobrych wynik\u00f3w w rozumowaniu, DeepSeek-R1-Zero mia\u0142 problemy z czytelno\u015bci\u0105 generowanych odpowiedzi i wykazywa\u0142 tendencj\u0119 do mieszania j\u0119zyk\u00f3w. Tymczasem \u0142a\u0144cuchy rozumowania powinny by\u0107 klarowne, sp\u00f3jne i \u0142atwe do interpretacji przez u\u017cytkownika.<\/p><p>Skoro model by\u0142 trenowany ca\u0142kowicie z RL, to mo\u017ce warto poprawi\u0107 wydajno\u015b\u0107 rozumowania lub przyspieszy\u0107 zbie\u017cno\u015b\u0107 poprzez dodanie niewielkiej ilo\u015bci wysokiej jako\u015bci danych pocz\u0105tkowych?<\/p><p>Odpowiedzi\u0105 na te problemy by\u0142o kolejne podej\u015bcie, kt\u00f3rym zaj\u0119to si\u0119 w modelu DeepSeek-R1. Wykorzystano w nim RL (tak jak poprzednio), ale tym razem z zimnym startem, czyli przyjaznym dla cz\u0142owieka zbiorem danych pocz\u0105tkowych.<\/p><h4 class=\"wp-block-heading\"><strong>Wieloetapowy trening kluczem do sukcesu \u2013 DeepSeek-R1<\/strong><\/h4><h6 class=\"wp-block-heading\"><strong><mark style=\"background-color:rgba(0, 0, 0, 0);color:#bc4637\" class=\"has-inline-color\">Etap 1. Zimny start + RL \u2013 poprawa procesu rozumowania<\/mark><\/strong><\/h6><p>Zimny start to nic innego jak <em>fine-tuning<\/em> modelu na poprzednio przygotowanych danych (z d\u0142ugimi \u0142a\u0144cuchami rozumowania). Autorzy przygotowali tysi\u0105ce takich sampli. Wspomagali si\u0119 poprzednim DeepSeek-R1-Zero i z pomoc\u0105 <em>few-shot prompting<\/em> generowali przyk\u0142ady, kt\u00f3re potem dodatkowo poprawiali ludzcy anotatorzy.<\/p><p>To iteracyjne podej\u015bcie do treningu w tworzeniu modeli rozumowania okaza\u0142o si\u0119 skuteczniejsze ni\u017c czyste uczenie ze wzmocnieniem. Ale\u2026 problem z myleniem j\u0119zyk\u00f3w wci\u0105\u017c wyst\u0119powa\u0142.<\/p><p>Rozwi\u0105zaniem na t\u0119 bol\u0105czk\u0119 okaza\u0142 si\u0119\u2026 nowy typ nagrody \u2013<strong> nagroda sp\u00f3jno\u015bci j\u0119zykowej (<\/strong><strong><em>language consistency reward<\/em><\/strong><strong>)<\/strong>,<strong> <\/strong>obliczana jako stosunek docelowego j\u0119zyka do wszystkich j\u0119zyk\u00f3w w \u0142a\u0144cuchu rozumowania. Autorzy wskazali, \u017ce takie podej\u015bcie lekko pogarsza wyniki, ale poprawia zadowolenie u\u017cytkownik\u00f3w.<\/p><p>Na tym nie koniec. Skoro prawie automatyczne przygotowywanie danych pomaga\u0142o za ka\u017cdym razem, to czemu mia\u0142oby nie pom\u00f3c i w kolejnym etapie?&nbsp;<\/p><h6 class=\"wp-block-heading\"><strong><mark style=\"background-color:rgba(0, 0, 0, 0);color:#bc4637\" class=\"has-inline-color\">Etap 2. <em>Rejection sampling<\/em>, czyli najlepsi z najlepszych<\/mark><\/strong><\/h6><p>Ostateczna koncepcja? Kolejny <em>fine-tuning<\/em>, ale z wi\u0119ksz\u0105 ilo\u015bci\u0105 danych dobrej jako\u015bci. Autorzy wzi\u0119li model po pierwszej fazie treningu RL, wygenerowali du\u017c\u0105 ilo\u015b\u0107 odpowiedzi na te same pytania, a nast\u0119pnie zastosowali metod\u0119 <em>rejection sampling<\/em>. Czyli m\u00f3wi\u0105c pro\u015bciej \u2013 wybrali tylko najlepsze odpowiedzi. Przyk\u0142adowo odrzucali odpowiedzi, w kt\u00f3rych miesza\u0142y si\u0119 j\u0119zyki, kod by\u0142 nieczytelny albo paragrafy okazywa\u0142y si\u0119 wyj\u0105tkowo d\u0142ugie.<\/p><p>W przypadku zada\u0144 z jednoznacznymi odpowiedziami (np. matematycznych) po prostu sprawdzali, czy wynik jest poprawny. Dla bardziej z\u0142o\u017conych zada\u0144 u\u017cywali DeepSeek-V3 jako \u201es\u0119dziego\u201d do oceny jako\u015bci odpowiedzi.<\/p><p>W sumie zebrano oko\u0142o 600 tys. przyk\u0142ad\u00f3w zwi\u0105zanych z rozumowaniem. Dodano te\u017c oko\u0142o 200 tys. przyk\u0142ad\u00f3w zwyk\u0142ych zada\u0144, kt\u00f3re nie by\u0142y zwi\u0105zane z rozumowaniem (np. \u201eCze\u015b\u0107!\u201d). Dzi\u0119ki temu model nie straci\u0142 swoich podstawowych umiej\u0119tno\u015bci, co mog\u0142oby si\u0119 wydarzy\u0107, gdyby skupia\u0142 si\u0119 tylko na rozumowaniu.<\/p><h6 class=\"wp-block-heading\"><strong><mark style=\"background-color:rgba(0, 0, 0, 0);color:#bc4637\" class=\"has-inline-color\">Etap 3. Ostatni szlif \u2013 <em>alignment<\/em> (\u201eRL dla wszystkich scenariuszy\u201d)<\/mark><\/strong><\/h6><p>Po usuni\u0119ciu s\u0142abszej jako\u015bci danych autorzy uznali, \u017ce model wci\u0105\u017c potrzebuje dodatkowej rundy treningu \u2013 tym razem skupionej nie tylko na rozumowaniu, ale te\u017c na og\u00f3lnej u\u017cyteczno\u015bci i bezpiecze\u0144stwie. Wprowadzili wi\u0119c drugi etap uczenia ze wzmocnieniem z kilkoma istotnymi modyfikacjami.<\/p><ol class=\"wp-block-list\"><li><strong>Model nagrody: <\/strong>chocia\u017c na pocz\u0105tku wystrzegali si\u0119 wykorzystywania LLM jako \u201es\u0119dziego\u201d, to uznali, \u017ce jest on przydatny na ostatnim etapie. Argumentowali, \u017ce nie korzystali z niego wcze\u015bniej, bo modele nagrody cz\u0119sto \u201eoszukuj\u0105\u201d podczas d\u0142ugiego treningu, ponadto wymagaj\u0105 dodatkowych zasob\u00f3w i po prostu komplikuj\u0105 ca\u0142y proces. Pozosta\u0142e nagrody (za sp\u00f3jno\u015b\u0107 j\u0119zykow\u0105, format i poprawno\u015b\u0107) pozosta\u0142y bez zmian.<\/li>\n\n<li><strong>Dwa poziomy oceny odpowiedzi:<\/strong> jej u\u017cyteczno\u015b\u0107 (<em>helpfulness<\/em>) oceniana na podstawie ko\u0144cowej odpowiedzi oraz bezpiecze\u0144stwo (<em>harmlessness<\/em>), sprawdzane w ca\u0142ej wiadomo\u015bci (proces rozumowania + odpowied\u017a).<\/li><\/ol><p>Dodatkowo autorzy korzystali z DeepSeek-V3, pilnowali balansu mi\u0119dzy u\u017cyteczno\u015bci\u0105 a bezpiecze\u0144stwem i zadbali o r\u00f3\u017cnorodno\u015b\u0107 prompt\u00f3w zawieraj\u0105cych zadania wymagaj\u0105ce rozumowania oraz takie, kt\u00f3re go nie potrzebuj\u0105.<\/p><h4 class=\"wp-block-heading\"><strong>Wyniki<\/strong><\/h4><p class=\"has-background\" style=\"background-color:#bc4637\"><mark style=\"background-color:rgba(0, 0, 0, 0)\" class=\"has-inline-color has-base-color\">Dlaczego DeepSeek zrobi\u0142 \u015bwiatow\u0105 furor\u0119? Poniewa\u017c osi\u0105gn\u0105\u0142 wyniki por\u00f3wnywalne z najlepszymi modelami, generuj\u0105c przy tym ni\u017csze koszty treningu (co pokazuje, \u017ce przemy\u015blana architektura i strategia treningu mog\u0105 by\u0107 wa\u017cniejsze ni\u017c czysta moc obliczeniowa), a na dodatek jest dost\u0119pny w modelu otwartym.\u00a0<br><\/mark><br><mark style=\"background-color:rgba(0, 0, 0, 0)\" class=\"has-inline-color has-base-color\">Por\u00f3wnajmy zatem konkretne wyniki R1 vs o1:<br><\/mark><br> <img loading=\"lazy\" decoding=\"async\" width=\"800\" height=\"496\" class=\"wp-image-9959\" style=\"width: 800px;\" src=\"https:\/\/haimagazine.com\/wp-content\/uploads\/2025\/03\/127_1.png\" alt=\"\" srcset=\"https:\/\/haimagazine.com\/wp-content\/uploads\/2025\/03\/127_1.png 817w, https:\/\/haimagazine.com\/wp-content\/uploads\/2025\/03\/127_1-300x186.png 300w, https:\/\/haimagazine.com\/wp-content\/uploads\/2025\/03\/127_1-768x477.png 768w, https:\/\/haimagazine.com\/wp-content\/uploads\/2025\/03\/127_1-600x372.png 600w\" sizes=\"auto, (max-width: 800px) 100vw, 800px\" \/><\/p><p><\/p>","protected":false},"excerpt":{"rendered":"<p>Najnowszy model DeepSeek oferuje zaawansowane mo\u017cliwo\u015bci rozumowania, por\u00f3wnywalne z czo\u0142owymi modelami, takimi jak GPT-4, przy znacznie ni\u017cszych kosztach i mniejszym zu\u017cyciu zasob\u00f3w obliczeniowych.<\/p>\n","protected":false},"author":44,"featured_media":9946,"comment_status":"closed","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"_acf_changed":false,"rank_math_lock_modified_date":false,"footnotes":""},"categories":[612,763,402,754],"tags":[],"popular":[],"difficulty-level":[37],"ppma_author":[372],"class_list":["post-9434","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-numer-4","category-ai_praktyka","category-hai-magazine","category-hai_premium","difficulty-level-hard"],"acf":[],"authors":[{"term_id":372,"user_id":44,"is_guest":0,"slug":"dr-in-agnieszka-mikolajczyk-barela","display_name":"dr inz. Agnieszka Miko\u0142ajczyk-Bare\u0142a","avatar_url":{"url":"https:\/\/haimagazine.com\/wp-content\/uploads\/2024\/08\/Agnieszka-Mikolajczyk-Barela.jpeg","url2x":"https:\/\/haimagazine.com\/wp-content\/uploads\/2024\/08\/Agnieszka-Mikolajczyk-Barela.jpeg"},"first_name":"Agnieszka","last_name":"Miko\u0142ajczyk-Bare\u0142a","user_url":"","job_title":"","description":"Autorka zbior\u00f3w danych, prac naukowych i publikacji, Senior AI Engineer w start-upie Chaptr. Prac\u0119 doktorsk\u0105 na temat wykrywania i zmniejszania wp\u0142ywu b\u0142\u0119d\u00f3w w danych i modelach AI obroni\u0142a na Politechnice Gda\u0144skiej. W wolnym czasie organizatorka, aktywnie udziela si\u0119 w \u015brodowisku naukowym \u2013 prowadzi m.in. projekty AI4Good."}],"_links":{"self":[{"href":"https:\/\/haimagazine.com\/pl\/wp-json\/wp\/v2\/posts\/9434","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/haimagazine.com\/pl\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/haimagazine.com\/pl\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/haimagazine.com\/pl\/wp-json\/wp\/v2\/users\/44"}],"replies":[{"embeddable":true,"href":"https:\/\/haimagazine.com\/pl\/wp-json\/wp\/v2\/comments?post=9434"}],"version-history":[{"count":4,"href":"https:\/\/haimagazine.com\/pl\/wp-json\/wp\/v2\/posts\/9434\/revisions"}],"predecessor-version":[{"id":9963,"href":"https:\/\/haimagazine.com\/pl\/wp-json\/wp\/v2\/posts\/9434\/revisions\/9963"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/haimagazine.com\/pl\/wp-json\/wp\/v2\/media\/9946"}],"wp:attachment":[{"href":"https:\/\/haimagazine.com\/pl\/wp-json\/wp\/v2\/media?parent=9434"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/haimagazine.com\/pl\/wp-json\/wp\/v2\/categories?post=9434"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/haimagazine.com\/pl\/wp-json\/wp\/v2\/tags?post=9434"},{"taxonomy":"popular","embeddable":true,"href":"https:\/\/haimagazine.com\/pl\/wp-json\/wp\/v2\/popular?post=9434"},{"taxonomy":"difficulty-level","embeddable":true,"href":"https:\/\/haimagazine.com\/pl\/wp-json\/wp\/v2\/difficulty-level?post=9434"},{"taxonomy":"author","embeddable":true,"href":"https:\/\/haimagazine.com\/pl\/wp-json\/wp\/v2\/ppma_author?post=9434"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}