{"id":5176,"date":"2024-10-01T08:59:00","date_gmt":"2024-10-01T08:59:00","guid":{"rendered":"https:\/\/haimagazine.com\/?p=5176"},"modified":"2025-06-26T13:53:35","modified_gmt":"2025-06-26T11:53:35","slug":"uczenie-ze-wzmocnieniem-czyli-jak-ograc-mistrza","status":"publish","type":"post","link":"https:\/\/haimagazine.com\/pl\/hai-magazine\/uczenie-ze-wzmocnieniem-czyli-jak-ograc-mistrza\/","title":{"rendered":"Uczenie ze wzmocnieniem, czyli jak ogra\u0107 mistrza"},"content":{"rendered":"<figure class=\"wp-block-table is-style-stripes\"><table class=\"has-fixed-layout\"><tbody><tr><td>Lee Sedol zapali\u0142 papierosa na hotelowym tarasie. Potrzebowa\u0142 przerwy. Chwil\u0119 wcze\u015bniej,\u00a0 w niewielkiej sali konferencyjnej, na jasnej, masywnej, drewnianej tablicy po\u0142o\u017cy\u0142 kolejny bia\u0142y kamie\u0144. Wykona\u0142 trzydziesty sz\u00f3sty ruch drugiej partii meczu Go. Miliony obserwowa\u0142y, jak przegra\u0142 pierwsz\u0105 z pi\u0119ciu zaplanowanych partii. Drug\u0105 musia\u0142 wygra\u0107. By\u0142 jednym z najsilniejszych graczy na \u015bwiecie, prawdopodobnie nawet najsilniejszym. By\u0142 10 marca 2016 roku. Przeciwnik \u2013 stworzony przez DeepMind program AlphaGo \u2013 wykona\u0142 ruch numer 37.\u00a0<\/td><\/tr><\/tbody><\/table><\/figure><h4 class=\"wp-block-heading\">\u015awiat, cz\u0142owiek, AI i Go<\/h4><p>Regu\u0142y Go s\u0105 proste. Na tablicy przeci\u0119tej dziewi\u0119tnastoma pionowymi i poziomymi liniami dw\u00f3ch graczy uk\u0142ada na przemian czarne i bia\u0142e kamienie . Wygrywa ten, kto otoczy kamieniami wi\u0119ksze terytorium. Te proste regu\u0142y sk\u0142adaj\u0105 si\u0119 jednak na niewyobra\u017caln\u0105 z\u0142o\u017cono\u015b\u0107 rozgrywki. Go zachwyca ni\u0105 ludzi od ponad dw\u00f3ch i p\u00f3\u0142 tysi\u0105ca lat. Liczba mo\u017cliwych dozwolonych konfiguracji kamieni jest podobno wi\u0119ksza od szacowanej liczby atom\u00f3w w obserwowalnym wszech\u015bwiecie.&nbsp;<\/p><p>Podobnie jest w matematyce. Z kilku prostych aksjomat\u00f3w i wybranych zasad wnioskowania rodz\u0105 si\u0119 niesko\u0144czone przestrzenie i struktury, kt\u00f3re pozwalaj\u0105 doskonale opisa\u0107 lub odgadn\u0105\u0107 prawa rz\u0105dz\u0105ce naszym \u015bwiatem. Podobnie sprawy maj\u0105 si\u0119 w sztuce i w \u017cyciu.<\/p><p>Skuteczne poruszanie si\u0119 po stwarzaj\u0105cej takie mo\u017cliwo\u015bci przestrzeni wymaga czego\u015b wi\u0119cej ni\u017c umiej\u0119tno\u015b\u0107 stosowania si\u0119 do panuj\u0105cych regu\u0142. Wymaga g\u0142\u0119bokiego ich rozumienia, przewidywania konsekwencji, tw\u00f3rczego ich wykorzystywania oraz zdolno\u015bci poszukiwania nowych rozwi\u0105za\u0144. Dzi\u0119ki naszej kreatywno\u015bci, wyobra\u017ani, intuicji i ciekawo\u015bci mo\u017cemy by\u0107 w tym bardzo dobrzy.<\/p><p>Czy r\u00f3wnie dobry mo\u017ce by\u0107 w tym algorytm? Czy ludzki spos\u00f3b rozumowania oparty na wszystkich wy\u017cej wymienionych umiej\u0119tno\u015bciach mo\u017cna zapisa\u0107 w postaci r\u00f3wnania lub w\u0142a\u015bnie algorytmu? Je\u015bli tak, to by\u0107 mo\u017ce mo\u017cliwe by\u0142oby r\u00f3wnie\u017c stworzenie sztucznej inteligencji, kt\u00f3ra dor\u00f3wnywa\u0142aby cz\u0142owiekowi. Tylko jak to sprawdzi\u0107?&nbsp;<\/p><p>Potrzebny by\u0142by nam \u015bwiat przynajmniej tak samo z\u0142o\u017cony jak&nbsp; otaczaj\u0105ca rzeczywisto\u015b\u0107, ale jednocze\u015bnie opisany prostymi regu\u0142ami, kt\u00f3re mo\u017cna zaprogramowa\u0107. \u015awiat, w kt\u00f3rym mo\u017cna umie\u015bci\u0107 ucz\u0105c\u0105 si\u0119 bez udzia\u0142u cz\u0142owieka wirtualn\u0105 istot\u0119. \u015awiata, do kt\u00f3rego dost\u0119p powinien mie\u0107 tak\u017ce cz\u0142owiek. Tak, aby\u015bmy mogli por\u00f3wna\u0107 jego kreatywno\u015b\u0107, wyobra\u017ani\u0119, intuicj\u0119 i ciekawo\u015b\u0107 z t\u0105 wirtualn\u0105. Najlepiej poprzez wsp\u00f3\u0142zawodnictwo. Ready, steady, Go!<\/p><h3 class=\"wp-block-heading\">Strategia gry<\/h3><figure class=\"wp-block-table is-style-stripes\"><table class=\"has-fixed-layout\"><tbody><tr><td>Lee ze zdziwieniem patrzy\u0142 na tablic\u0119, na kt\u00f3rej pojawi\u0142 si\u0119 nowy czarny kamie\u0144. Do\u015bwiadczenie pokole\u0144 graczy podpowiada\u0142o, \u017ce ruch AlphaGo by\u0142 b\u0142\u0119dem. Tak si\u0119 nie gra\u0142o. Takiego ruchu nie wykona\u0142by cz\u0142owiek, kt\u00f3ry mia\u0142by mo\u017cliwo\u015b\u0107 zmierzenia si\u0119 z mistrzem Lee Sedolem. Lee poczu\u0142 jednak co\u015b dziwnego. Traci\u0142 kontrol\u0119 nad przebiegiem rozgrywki.<\/td><\/tr><\/tbody><\/table><\/figure><p>Algortym AlphaGo jest algorytmem sterowania, kt\u00f3ry poszukuje przybli\u017conego (dobrego) rozwi\u0105zania problemu wieloetapowego podejmowania decyzji w warunkach niepewno\u015bci.&nbsp;<\/p><p>A teraz bardziej po ludzku: wyobra\u017amy sobie, \u017ce jedziemy na spotkanie i jeste\u015bmy ju\u017c troch\u0119 sp\u00f3\u017anieni. Musimy jak najszybciej dotrze\u0107 na drugi koniec miasta, a z jakich\u015b przyczynnie mamy dost\u0119pu do nawigacji. Przed nami kilka skrzy\u017cowa\u0144. Na ka\u017cdym musimy zdecydowa\u0107, kt\u00f3r\u0105 drog\u0105 pojecha\u0107. Co bierzemy pod uwag\u0119?&nbsp;<\/p><p>Po pierwsze, to co mamy przed oczami. Widzimy jak wygl\u0105da trasa do kolejnego skrzy\u017cowania, widzimy czy jest zakorkowana czy nie, i oceniamy koszt przejechania tego kr\u00f3tkiego odcinka.&nbsp;<\/p><p>Po drugie, oczywi\u015bcie to, czego nie widzimy. Na bie\u017c\u0105co oceniamy ca\u0142kowity czas, jaki zajmie nam dojazdu do celu tras\u0105, kt\u00f3r\u0105 obrali\u015bmy. T\u0105, kt\u00f3r\u0105 widzimy oczyma wyobra\u017ani. Z do\u015bwiadczenia wiemy, kt\u00f3re z tras s\u0105 lepsze, kt\u00f3re gorsze. To przecie\u017c nasze miasto. Mo\u017cemy wybra\u0107 szybki przejazd do kolejnego skrzy\u017cowania i potem sta\u0107 w d\u0142ugim korku. Albo mo\u017cemy najpierw skr\u0119ci\u0107 w uliczk\u0119, kt\u00f3ra mo\u017ce i jest zat\u0142oczona, ale pozwoli nam omin\u0105\u0107 korek. Ka\u017cda decyzja niesie za sob\u0105 konsekwencje. Ci\u0105g decyzji podejmowanych na kolejnych skrzy\u017cowaniach wyznaczy tras\u0119 i czas naszego przejazdu.&nbsp;<\/p><p>Je\u015bli jechaliby\u015bmy przez puste miasto, pojechaliby\u015bmy prosto do celu. Jednak w godzinach szczytu ka\u017cde skrzy\u017cowanie stwarza nam wyb\u00f3r. I na ka\u017cdym musimy szacowa\u0107 konsekwencje tych wybor\u00f3w. \u015awiadomie lub nie, stosujemy jak\u0105\u015b regu\u0142\u0119.&nbsp;<\/p><figure class=\"wp-block-image size-large\"><img loading=\"lazy\" decoding=\"async\" width=\"1024\" height=\"593\" src=\"https:\/\/haimagazine.com\/wp-content\/uploads\/2024\/10\/Screenshot-2024-09-30-at-21.20.56-1024x593.png\" alt=\"\" class=\"wp-image-5575\" srcset=\"https:\/\/haimagazine.com\/wp-content\/uploads\/2024\/10\/Screenshot-2024-09-30-at-21.20.56-1024x593.png 1024w, https:\/\/haimagazine.com\/wp-content\/uploads\/2024\/10\/Screenshot-2024-09-30-at-21.20.56-300x174.png 300w, https:\/\/haimagazine.com\/wp-content\/uploads\/2024\/10\/Screenshot-2024-09-30-at-21.20.56-768x445.png 768w, https:\/\/haimagazine.com\/wp-content\/uploads\/2024\/10\/Screenshot-2024-09-30-at-21.20.56-600x348.png 600w, https:\/\/haimagazine.com\/wp-content\/uploads\/2024\/10\/Screenshot-2024-09-30-at-21.20.56.png 1274w\" sizes=\"auto, (max-width: 1024px) 100vw, 1024px\" \/><\/figure><p>Podobny problem rozwi\u0105zywa\u0142 AlphaGo. Obserwowa\u0142 aktualny stan tablicy, wybiera\u0142 ruch, kt\u00f3ry wydawa\u0142 si\u0119 mu zar\u00f3wno dobr\u0105 odpowiedzi\u0105 na uk\u0142ad kamieni, jak i maksymalizowa\u0142 szanse na wygran\u0105. W przypadku Go problem ten jest oczywi\u015bcie niewyobra\u017calnie bardziej z\u0142o\u017cony. Skrzy\u017cowa\u0144 (uk\u0142ad\u00f3w kamieni) s\u0105 przera\u017caj\u0105ce ilo\u015bci, miejsce spotkania (korzystny podzia\u0142 terytorium) zmienia si\u0119 co chwila, a korki (ruchy przeciwnika) zmieniaj\u0105 map\u0119 miasta nie do poznania.&nbsp;<\/p><p>To zachwycaj\u0105ce, \u017ce uda\u0142o nam si\u0119 tak dobrze opanowa\u0107 t\u0119 rozgrywk\u0119. Lee by\u0142 w tym mistrzem. Podobnego poziomu nie by\u0142 w stanie osi\u0105gn\u0105\u0107 \u017caden program komputerowy. Wygl\u0105da\u0142o na to, \u017ce kreatywno\u015b\u0107, wyobra\u017ania, intuicja i ciekawo\u015b\u0107 to co\u015b wi\u0119cej ni\u017c algorytm, i to my na te supermoce mamy monopol.<\/p><p>Sekwencj\u0119 kolejno stosowanych regu\u0142 podejmowania decyzji nazywamy strategi\u0105 (lub polityk\u0105) sterowania. AlphaGo musia\u0142 najpierw nauczy\u0107 si\u0119 gra\u0107 w gr\u0119 i opracowa\u0107 w\u0142asn\u0105 strategi\u0119.<\/p><h3 class=\"wp-block-heading\">Jak nauczy\u0107 si\u0119 dobrze gra\u0107?<\/h3><p>Skonstruowanie najlepszej mo\u017cliwej strategii jest piekielnie trudne, ale znamy na ni\u0105 przepis. Ot, matematyka.<\/p><p>Za\u0142\u00f3\u017cmy, \u017ce znamy optymaln\u0105 strategi\u0119 jazdy przez miasto. Przenie\u015bmy si\u0119 teraz na sam koniec trasy i sp\u00f3jrzmy na najbli\u017csze skrzy\u017cowania. Mogli\u015bmy dotrze\u0107 do celu z dowolnego z nich. Optymalna regu\u0142a sterowania, kt\u00f3r\u0105 wykorzystaliby\u015bmy na ostatnim etapie podr\u00f3\u017cy, wska\u017ce nam najlepsz\u0105 tras\u0119 z dowolnego skrzy\u017cowania prowadz\u0105cego bezpo\u015brednio do celu. Tu sprawa jest prosta, wyb\u00f3r jest niewielki. Poznamy jednak koszty optymalnych decyzji na tym etapie, co jest szczeg\u00f3lnie wa\u017cne.<\/p><p>Zr\u00f3bmy teraz kolejny krok wstecz. Do celu musimy pokona\u0107 dwa skrzy\u017cowania, to na kt\u00f3rym jeste\u015bmy i to ostatnie, prowadz\u0105ce bezpo\u015brednio do celu. Tutaj mamy wi\u0119kszy wyb\u00f3r i musimy na powa\u017cnie liczy\u0107 si\u0119 z konsekwencjami. Musimy wzi\u0105\u0107 pod uwag\u0119 dwa sk\u0142adniki kosztu: koszt dojechania do najbli\u017cszego skrzy\u017cowania oraz koszt dalszej podr\u00f3\u017cy. To w\u0142a\u015bnie zrobi optymalna regu\u0142a, wybierze najmniejszy ca\u0142kowity koszt dojazdu do celu z dowolnego skrzy\u017cowania, na kt\u00f3rym si\u0119 znajdziemy na tym etapie. Ale jak oceni konsekwencje swoich decyzji, jak je sobie wyobrazi? Nic prostszego! Gdziekolwiek trafimy, znamy ju\u017c przecie\u017c optymalne koszty na ostatnim etapie!&nbsp;<\/p><p>I tak dalej, to znaczy wstecz, od ko\u0144ca do pocz\u0105tku podr\u00f3\u017cy.&nbsp;<\/p><p>Ogony strategii optymalnej, czyli regu\u0142y post\u0119powania od wybranego etapu po\u015bredniego do etapu ko\u0144cowego, s\u0105 optymalne dla ka\u017cdego stanu pocz\u0105tkowego. Tak brzmi s\u0142ynna i pot\u0119\u017cna zasada optymalno\u015bci odkryta w latach \u201850 przez Richarda E. Bellmana. To jest nasz przepis, r\u00f3wnanie Bellmana:<\/p><p>$J_k(x) = \\min \\mathbb{E}\\{g_k(x,u,w)+J_{k+1}(f(x,u,w))|\\ u\\in U_k, w\\sim P(x,u)\\}$<\/p><p>W zakl\u0119ciu tym $x$<em> <\/em>oznacza stan, w kt\u00f3rym si\u0119 znajdujemy, $u$ decyzj\u0119 do poj\u0119cia, a $w$ zewn\u0119trzne losowe przeszkody. Funkcja $f(x,u,w)$ to model \u015bwiata. M\u00f3wi nam dok\u0105d trafimy ze stanu $x$, je\u015bli zrobimy ruch&nbsp; $u$, a potem wydarzy si\u0119 $w$ z prawdopodobie\u0144stwem $P(x,u)$. Funkcja $g_k(x,u,w)$ to koszt tego zdarzenia na etapie $k$. Na ka\u017cdym etapie wolno nam wybiera\u0107 jedynie ruchy ze zbioru $U_k(x)$. Napis $\\min \\mathbb{E}$ oznacza, \u017ce dla ka\u017cdej decyzji $u$ obliczamy \u015bredni szacowany koszt ca\u0142ej zabawy i wybieramy ten najmniejszy (czyli znajdujemy najlepsz\u0105 decyzj\u0119).&nbsp;<\/p><p>Na koniec najwa\u017cniejszy element. Funkcja $J_k(x)$ jest wska\u017anikiem jako\u015bci stosowania strategii optymalnej. M\u00f3wi ona, jakie konsekwencje poniesiemy, gdy w etapie $k$ znajdziemy si\u0119 w stanie $x$, a potem b\u0119dziemy stosowa\u0107 strategi\u0119 optymaln\u0105.&nbsp;<\/p><p>Je\u017celi znamy wszystkie konsekwencje ka\u017cdej mo\u017cliwej decyzji podejmowanej w ci\u0105gu ca\u0142ej rozgrywki, to strategia optymalna jest zbudowana z regu\u0142:<\/p><p>$\\mu_k(x) \\in \\arg\\min \\mathbb{E}\\{g_k(x,u,w)+J_{k+1}(f(x,u,w))|\\ u\\in U_k, w\\sim P(x,u)\\}$&nbsp;<\/p><p>W etapie $k$ strategia optymalna wybiera decyzj\u0119, kt\u00f3ra jest warto\u015bci\u0105 funkcji $\\mu_k$ w stanie $x$. Decyzja ta niesie ze sob\u0105 najlepsze mo\u017cliwe konsekwencje, od chwili $k$ do ko\u0144ca rozgrywki. Uwaga, musimy zna\u0107 sekwencj\u0119 funkcji $J_k(x)$, \u017ceby zastosowa\u0107 powy\u017cszy algortym. You\u2019re welcome!<\/p><p>W praktyce jest tak, \u017ce cz\u0119sto nie znamy liczby etap\u00f3w, albo proces decyzyjny mo\u017ce si\u0119 wielokrotnie powtarza\u0107. Zak\u0142adamy wi\u0119c dla uproszczenia, \u017ce zabawa trwa w niesko\u0144czono\u015b\u0107. To jedno z ulubionych uproszcze\u0144 w matematyce. Cz\u0119sto zale\u017cy nam r\u00f3wnie\u017c na maksymalizacji wynik\u00f3w, np. prawdopodobie\u0144stwa zwyci\u0119stwa w meczu Go. Wtedy r\u00f3wnanie Bellmana przyjmuje tak\u0105 posta\u0107:<\/p><p>$J(x) = \\max Q(x,u) = \\max \\mathbb{E}\\{g(x,u,w)+\\alpha J(f(x,u,w))|\\ u\\in U(x), w\\sim P(x,u)\\}$<\/p><p>Przepis na optymaln\u0105 strategi\u0119? Wybieramy kolumn\u0119 $u$ zawieraj\u0105c\u0105 najlepsz\u0105 warto\u015b\u0107 w wierszu $x$ tabeli $Q(x,u)$, czyli:<\/p><p>$\\mu(x) = \\arg \\max Q(x,u)$<\/p><p>Mo\u017cemy, stop, musimy r\u00f3wnie\u017c uwzgl\u0119dni\u0107 nagrod\u0119 $D(x,u)$ za ciekawo\u015b\u0107 eksploracji ruch\u00f3w $u$ wcze\u015bniej niezbadanych, czyli<\/p><p>$\\mu(x) = \\arg \\max Q(x,u) + D(x,u)$<\/p><p>Taki w\u0142a\u015bnie problem rozwi\u0105zano buduj\u0105c najsilniejsze wcielenie algorytmu AlphaGo. W ten spos\u00f3b sam siebie zbudowa\u0142 AlphaGo Zero. Do czego dojdziemy ju\u017c za chwil\u0119.<\/p><p>I mamy przepis na optymaln\u0105 strategi\u0119! To w czym problem?&nbsp;<\/p><p>Z\u0142o\u017cono\u015b\u0107 gry w Go. Nie&nbsp; da si\u0119 efektywnie rozwi\u0105za\u0107 r\u00f3wnania Bellmana, gdy mo\u017cliwo\u015bci jest tak wiele. Nie pomo\u017ce w tym \u017caden klaster wypchany po brzegi kartami z GPU.&nbsp;<\/p><p>R\u00f3wnanie Bellmana musi by\u0107 prawdziwe dla ka\u017cdego stanu. Zatem, w procesie jego rozwi\u0105zywania dla ka\u017cdego stanu musimy rozwi\u0105za\u0107 skomplikowane zadanie obliczeniowe, musimy zna\u0107 model \u015bwiata oraz rozk\u0142ad prawdopodonie\u0144stwa zdarze\u0144 losowych, o estymacji ostatecznych wynik\u00f3w nie wspominaj\u0105c. Z praktycznego punktu widzenia to tak z\u0142o\u017cone, \u017ce niemo\u017cliwe. R\u00f3wnanie Bellmana jest dotkliwie dotkni\u0119te przekle\u0144stwem wymiarowo\u015bci.&nbsp;<\/p><p>Zatem jakim cudem potrafimy tak dobrze gra\u0107 w Go? Dzi\u0119ki wyobra\u017ani, intuicji i ciekawo\u015bci.<\/p><p>Wyobra\u017ania, intuicja i ciekawo\u015b\u0107, czyli Reinforcement Learning<\/p><p>Lee Sedol i Dennis Hassabis, za\u0142o\u017cyciej DeepMind i wsp\u00f3\u0142tw\u00f3rca algortymu AlphaGo, mru\u017cyli oczy od b\u0142ysk\u00f3w zdj\u0119\u0107 siedz\u0105cych przed nimi dziennikarzy. AlphaGo wygra\u0142 drug\u0105 parti\u0119. Lee podni\u00f3s\u0142 mikrofon. \u201cWczoraj by\u0142em zaskoczony. Dzisiaj brakuje mi s\u0142\u00f3w. Jestem w szoku. AlphaGo zagra\u0142 prawie doskona\u0142\u0105 gr\u0119.\u201d Ruch numer 37 przeszed\u0142 do historii, bo okaza\u0142 si\u0119 kluczowy dla zwyci\u0119stwa. Pokaza\u0142 now\u0105 strategi\u0119, kt\u00f3rej nie uda\u0142o si\u0119 odkry\u0107 pokoleniom mistrz\u00f3w. AlphaGo by\u0142&nbsp;nowatorski i tw\u00f3rczy. Pokona\u0142 cz\u0142owieka.&nbsp;<\/p><p>Demis Hassabis i Mustafa Suleyman za\u0142o\u017cyli DeepMind w 2010 roku, \u017ceby stworzy\u0107 pierwszy w historii algorytm wygrywaj\u0105cy z cz\u0142owiekiem w Go. Chcieli udowodni\u0107, \u017ce mo\u017cna zaprogramowa\u0107 proces uczenia podobny do ludzkiego i w ten spos\u00f3b stworzy\u0107 model AI podejmuj\u0105cy decyzje lepiej od cz\u0142owieka. Sze\u015b\u0107 lat p\u00f3\u017aniej osi\u0105gn\u0119li ten cel. A kluczem by\u0142o zwyci\u0119stwo nad przekle\u0144stwem wymiarowo\u015bci r\u00f3wnania Bellmana. Na jakich za\u0142o\u017ceniach si\u0119 opiera\u0142o?<\/p><p>Po pierwsze, nie potrzebujemy optymalnej strategii gry. Wystarczy nam dobra strategia, kt\u00f3r\u0105 b\u0119dziemy mogli poprawia\u0107 lub <em>wzmacnia\u0107<\/em> na podstawie obserwowanych interakcji z otoczeniem.&nbsp;<\/p><p>Po drugie, nie musimy zna\u0107 wszystkich konsekwencji wszystkich mo\u017cliwych decyzji. Wystarcz\u0105 nam prognozy konsekwencji tych sensownych. I to tylko tych, kt\u00f3re maluj\u0105 si\u0119 na niezbyt odleg\u0142ym horyzoncie. Wystarczy, \u017ce wyobrazimy sobie, co mog\u0142oby si\u0119&nbsp;wydarzy\u0107 i dostaniemy nagrod\u0119 za trafion\u0105 prognoz\u0119.&nbsp;<\/p><p>Po trzecie, musimy znale\u017a\u0107 sensowny kompromis pomi\u0119dzy ciekawo\u015bci\u0105 i do\u015bwiadczeniem, <em>exploit or explore<\/em>?&nbsp;<\/p><p>Tyle wystarczy. Wyobra\u017ania, ch\u0119\u0107 uczenia si\u0119, intuicja oraz ciekawo\u015b\u0107. W nagrod\u0119 dostajemy kod \u017ar\u00f3d\u0142owy kreatywno\u015bci.&nbsp;<\/p><p>Taki spos\u00f3b konstruowania strategii lub uczenia maszynowego, nosi nazw\u0119 uczenia przez wzmacnianie, czyli Reinforcement Learning (RL).&nbsp;<\/p><h3 class=\"wp-block-heading\">Monte Carlo w lesie<\/h3><figure class=\"wp-block-table is-style-stripes\"><table class=\"has-fixed-layout\"><tbody><tr><td>Lee wiedzia\u0142, \u017ce AlphaGo przewy\u017csza go zdolno\u015bci\u0105 analizowania niezliczonych scenariuszy gry, a tak\u017ce zdolno\u015bci\u0105 prognozowania konsekwencji ruch\u00f3w. Wiedzia\u0142, jak \u2013 dzi\u0119ki nadludzkiej wyobra\u017ani \u2013 kreatywna mo\u017ce by\u0107 jego gra. A gdyby tak zrobi\u0107 co\u015b szalonego? &#8211; pomy\u015bla\u0142. Lee po\u0142o\u017cy\u0142 na tablicy kamie\u0144 numer 78. AlphaGo katastrofalnie zahalucynowa\u0142.<\/td><\/tr><\/tbody><\/table><\/figure><p>Algorytm RL obserwuje aktualn\u0105 strategi\u0119 gry i nieustannie j\u0105 poprawia, wzmacnia dobre reakcje i t\u0142umi z\u0142e. Robi to szacuj\u0105c konsekwencje decyzji oraz umiej\u0119tnie wa\u017c\u0105c ciekawo\u015b\u0107 eksploracji ze zdobytym do\u015bwiadczeniem. Mo\u017ce zacz\u0105\u0107 nawet od losowego zestawu regu\u0142 i jakiego\u015b wyobra\u017conego szacunku ich konsekwencji. A w procesie uczenia, stopniowo, krok po kroku, strategia b\u0119dzie stawa\u0142a si\u0119 coraz lepsza.&nbsp;<\/p><p>Prze\u0142omem by\u0142o z\u0142o\u017cenie ofiary z optymalno\u015bci i wszechwiedzy zaszytych w r\u00f3wnaniu Bellmana:<\/p><p>$\\tilde{\\mu}_k(x) \\in \\arg\\max \\tilde{Q}_{k}(x,u) = \\mathbb{E}_{w}\\{g_k(x,u,w)+\\tilde{J}_{k+1}(f(x,u,w)) |\\ u\\in \\tilde{U}_k, u_{k+n}\\sim\\tilde{\\mu}_{k+n}\\}$<\/p><p>Najpierw oczywi\u015bcie sprawdzamy, w jakim stanie $x$ jeste\u015bmy i co sensownego $u\\in \\tilde{U}_k$ mo\u017cemy zrobi\u0107. Nast\u0119pnie, wyci\u0105gamy z r\u0119kawa jaki\u015b zestaw rozs\u0105dnych i intuicyjnie dobrych regu\u0142 $\\tilde{\\mu}_{k}$. Nazwiemy je <em>strategi\u0105 bazow\u0105<\/em>. To t\u0119 strategi\u0119 b\u0119dziemy poprawia\u0107 poprzez planowanie jednego ruchu do przodu, tzw. <em>lookahead<\/em> (chocia\u017c mogliby\u015bmy oczywi\u015bcie planowa\u0107 r\u00f3wnie\u017c kilka ruch\u00f3w do przodu). A potem wielokrotnie stosujemy strategi\u0119 $\\{u,\\tilde{\\mu}_{k+1},&#8230;,\\tilde{\\mu}_{k+N}\\}$, tzw. <em>rollout<\/em>, symuluj\u0105c po drodze odpowiedzi $w$ przeciwnika (lub wielu r\u00f3\u017cnych przeciwnik\u00f3w) w kolejnych ruchach.<\/p><p>Losowe generowanie wynik\u00f3w gry utworzy drzewo wariant\u00f3w rozgrywki, a li\u015bcie tego drzewa b\u0119d\u0105 zawiera\u0142y jej szacowany rezultat. Taka procedura eksplorowania mo\u017cliwo\u015bci nosi nazw\u0119 Monte Carlo Tree Search (MCTS). Nie jest to byle losowa eksploracja. Procedura notuje popularno\u015b\u0107 ga\u0142\u0119zi odwiedzanych przez strategi\u0119 bazow\u0105, dzi\u0119ki czemu pozwala rozwi\u0105za\u0107 problem <em>exlore\/exploit<\/em>. Przy wyborze decyzji mo\u017cemy uwzgl\u0119dni\u0107 nie tylko konsekwencje, ale tak\u017ce ciekawo\u015b\u0107 zbadania dotychczas niezbadanych \u015bcie\u017cek.&nbsp;<\/p><p>U\u015bredniony wynik symulacji MCTS zwraca prognoz\u0119 wyniku, kt\u00f3ry jest zapisywany w tabeli $\\tilde{Q}_k(x,u)$. Liczba na przeci\u0119ciu wiersza $x$ i kolumny $u$ oznacza szacowany rezultat decyzji $u$ w stanie $x$. Wyb\u00f3r optymalnej polega wi\u0119c na wyborze kolumny, kt\u00f3ra w wierszu $x$ zawiera najlepsz\u0105 warto\u015b\u0107. Takie $\\tilde{u}$ zapisujemy nast\u0119pnie jako warto\u015b\u0107 nowej regu\u0142y decyzyjnej $\\tilde{\\mu}_k(x)$. Wykonanie ruchu $u=\\tilde{\\mu}_k(x)$ przeniesie nas do kolejnego stanu. W nim ponownie wykonamy powy\u017csze kroki.<\/p><p>Wyb\u00f3r i rozbudowa scenariusza (<em>lookahead<\/em>), symulacja (<em>rollout<\/em>) i aktualizacja ocen (<em>backup\/update<\/em>) to podstawowe kroki procesu. Poprzez wielokrotne ich wykonywanie poprawiamy strategi\u0119 bazow\u0105! Jednocze\u015bnie poprawiamy tak\u017ce prognozy konsekwencji naszych ruch\u00f3w.<\/p><p>Rozbudowan\u0105 wersj\u0119 (niesko\u0144czony horyzont) tego podej\u015bcia zastosowano w trenowaniu AlphaGo. Strategi\u0119 bazow\u0105 z\u0142o\u017cono z dw\u00f3ch sieci neuronowych, wi\u0119kszej i mniejszej (<em>policy network<\/em>), wytrenowanych na bazie ruch\u00f3w graczy ekspert\u00f3w (ludzkich). Sieci te mia\u0142y przewidywa\u0107 prawdopodobie\u0144stwo nast\u0119pnego ruchu (cz\u0142owieka) w okre\u015blonej konfiguracji kamieni.&nbsp;<\/p><p>Wi\u0119ksza sie\u0107 rozwija\u0142a scenariusz gry po sekwencji ruch\u00f3w eksploruj\u0105cych (<em>lookahead<\/em>). Mniejsza doprowadza\u0142a gr\u0119 do ko\u0144ca (<em>rollout<\/em>). Algorytm MCTS estymowa\u0142 rezultaty gier, kt\u00f3re wielokrotnie prowadzone by\u0142y w ten spos\u00f3b przeciwko poprzedniej wersji strategii bazowej. Do estymacji rezultat\u00f3w wykorzystano konwolucyjn\u0105 sie\u0107 neuronow\u0105 (v<em>alue network<\/em>), kt\u00f3ra obraz kamieni na tablicy t\u0142umaczy\u0142a na szans\u0119 wygranej. Strategi\u0119 wzmacniano wed\u0142ug regu\u0142y<\/p><p>$\\mu(x) = \\arg\\max Q(x,u) + D(x,u)$,<\/p><p>promuj\u0105c ciekawo\u015b\u0107 eksploracji nagrod\u0105 $D(x,u)$.<\/p><p>AlphaGo gra\u0142 sam se sob\u0105. Ucz\u0105c si\u0119 na swoich b\u0142\u0119dach. I katastrofalnych halucynacjach.<\/p><h3 class=\"wp-block-heading\">AlphaZero, AlphaFold, AlphaProof, AlphaOmega?<\/h3><figure class=\"wp-block-table is-style-stripes\"><table class=\"has-fixed-layout\"><tbody><tr><td>Lee wygra\u0142 tylko jedn\u0105 z pi\u0119ciu zaplanowanych gier. Ruch numer 78 wykonany przez niego w czwartej grze by\u0142 dla AlphaGo tym, czym ruch 37 by\u0142 dla cz\u0142owieka. \u0179r\u00f3d\u0142em inspiracji do nauki i wzmocnienia strategii. Pi\u0105ta gra zn\u00f3w nale\u017ca\u0142a do AI.&nbsp;<\/td><\/tr><\/tbody><\/table><\/figure><p>AlphaGo vs Cz\u0142owiek, 4-1.&nbsp;<\/p><figure class=\"wp-block-table is-style-stripes\"><table class=\"has-fixed-layout\"><tbody><tr><td>Lee g\u0142\u0119boko prze\u017cy\u0142 t\u0119 pora\u017ck\u0119. Karier\u0119 zawodow\u0105 zako\u0144czy\u0142 wkr\u00f3tce potem, 19 listopada 2019 roku. Po przej\u015bciu na emerytur\u0119 (ma 41 lat) zainteresowa\u0142 si\u0119 projektowaniem gier planszowych.<\/td><\/tr><\/tbody><\/table><\/figure><figure class=\"wp-block-image size-large\"><img loading=\"lazy\" decoding=\"async\" width=\"1024\" height=\"573\" src=\"https:\/\/haimagazine.com\/wp-content\/uploads\/2024\/10\/Screenshot-2024-09-30-at-21.21.21-1024x573.png\" alt=\"\" class=\"wp-image-5578\" srcset=\"https:\/\/haimagazine.com\/wp-content\/uploads\/2024\/10\/Screenshot-2024-09-30-at-21.21.21-1024x573.png 1024w, https:\/\/haimagazine.com\/wp-content\/uploads\/2024\/10\/Screenshot-2024-09-30-at-21.21.21-300x168.png 300w, https:\/\/haimagazine.com\/wp-content\/uploads\/2024\/10\/Screenshot-2024-09-30-at-21.21.21-768x430.png 768w, https:\/\/haimagazine.com\/wp-content\/uploads\/2024\/10\/Screenshot-2024-09-30-at-21.21.21-600x336.png 600w, https:\/\/haimagazine.com\/wp-content\/uploads\/2024\/10\/Screenshot-2024-09-30-at-21.21.21.png 1168w\" sizes=\"auto, (max-width: 1024px) 100vw, 1024px\" \/><\/figure><p>Kariera AlphaGo tak\u017ce dobieg\u0142a ko\u0144ca.&nbsp;<\/p><p>Do\u015bwiadczenia zgromadzone przez DeepMind doprowadzi\u0142y do powstania AlphaGo Zero, najsilniejszej wersji algorytmu. W tym przypadku nie wykorzystywano ju\u017c wiedzy cz\u0142owieka. AlphaGo Zero sam nauczy\u0142 si\u0119 gry w Go, wielokrotnie graj\u0105c ze sob\u0105. Osi\u0105gn\u0105\u0142 nadludzki poziom.&nbsp;<\/p><p>AlphaGo Zero vs AlphaGo, 100-0.<\/p><p>Strategia bazowa oraz prognoza rezultatu gry tym razem zosta\u0142y zamodelowane przy pomocy jednej sieci neuronowej, kt\u00f3ra na wej\u015bciu otrzymywa\u0142a obraz, uk\u0142ad kamieni. Na wyj\u015bciu zwraca\u0142a rozk\u0142ad prawdopodobie\u0144stwa ruch\u00f3w oraz ocen\u0119 prawdopodobie\u0144stwa wygranej. Za wzmacnianie strategii wci\u0105\u017c odpowiada\u0142 algorytm MCTS, jednak bez kroku <em>rollout<\/em>. Ruchy eksploruj\u0105ce wykonywane by\u0142y przez aktualn\u0105 wersj\u0119 strategii, a nast\u0119pnie by\u0142y poprawiane (<em>lookahead<\/em>) na podstawie prognoz wyniku. Obserwacje tych ruch\u00f3w i uzyskanych wynik\u00f3w wykorzystywano jednocze\u015bnie do trenowania sieci.&nbsp;<\/p><p>Krok po kroku, algorytm RL zbli\u017ca\u0142 AlphaGo Zero do doskona\u0142ego rozwi\u0105zania r\u00f3wnania Bellmana.&nbsp;<\/p><blockquote class=\"wp-block-quote is-layout-flow wp-block-quote-is-layout-flow\"><p><em><strong>\u201cLudzko\u015b\u0107 zgromadzi\u0142a wiedz\u0119 o Go z milion\u00f3w partii, kt\u00f3re zosta\u0142y rozegrane na przestrzeni tysi\u0119cy lat, wiedz\u0119 skondensowan\u0105 w postaci wzorc\u00f3w, regu\u0142 i ksi\u0105\u017cek. W ci\u0105gu zaledwie kilku dni, zaczynaj\u0105c od zera (tabula rasa), AlphaGo Zero zdo\u0142a\u0142o ponownie odkry\u0107 znaczn\u0105 cz\u0119\u015b\u0107 tej wiedzy o Go, a tak\u017ce wypracowa\u0107 nowe strategie, kt\u00f3re dostarczaj\u0105 \u015bwie\u017cego spojrzenia na jedn\u0105 z najstarszych gier \u015bwiata.\u201d<\/strong><\/em> <br>Silver et al., <em>Mastering the game of go without human knowledge<\/em>. <em>Nature<\/em> (2017).<\/p><\/blockquote><p>Co sta\u0142o si\u0119 potem? Ewolucja nap\u0119dzana przez RL stworzy\u0142a AlphaZero, model samodzielnie ucz\u0105cy si\u0119 gra\u0107 w Go, szachy, Shogi, lub dowoln\u0105 gr\u0119 logiczn\u0105 dla dw\u00f3ch graczy. Model, kt\u00f3ry gra na poziomie przewy\u017cszaj\u0105cym mo\u017cliwo\u015bci cz\u0142owieka.<\/p><p>A potem? Powsta\u0142 AlphaFold, model przewiduj\u0105cy struktur\u0119 przestrzenn\u0105 bia\u0142ka na podstawie sekwencji jego aminokwas\u00f3w. Model daj\u0105cy nadziej\u0119 na niezwyk\u0142e przyspieszenie procesu odkrywania lek\u00f3w i t\u0142umaczenia przyczyn chor\u00f3b.&nbsp;<\/p><p>A potem? AlphaProof nauczy\u0142 si\u0119 formalnego matematycznego wnioskowania i rozwi\u0105za\u0142 poprawnie trzy z sze\u015bciu zada\u0144 Mi\u0119dzynarodowej Olimpiady Matematycznej 2024, osi\u0105gaj\u0105c poziom srebrnego medalisty.<\/p><p>A potem?&nbsp;<\/p>","protected":false},"excerpt":{"rendered":"<p>Na czym polega jeden z najpot\u0119\u017cniejszych  sposob\u00f3w uczenia i kiedy ujawni\u0142 sw\u00f3j potencja\u0142? <\/p>\n","protected":false},"author":101,"featured_media":4751,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"_acf_changed":false,"rank_math_lock_modified_date":false,"footnotes":""},"categories":[402,763,754,404],"tags":[],"popular":[],"difficulty-level":[38],"ppma_author":[378],"class_list":["post-5176","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-hai-magazine","category-ai_praktyka","category-hai_premium","category-hai-magazine-2","difficulty-level-medium"],"acf":[],"authors":[{"term_id":378,"user_id":101,"is_guest":0,"slug":"michal-karpowicz","display_name":"dr hab. in\u017c. Micha\u0142 Karpowicz","avatar_url":"https:\/\/secure.gravatar.com\/avatar\/3b1a5fb61df9ea1ed4d5cef82d31cf03393f80500b21b528e21012a2d3cf2916?s=96&d=mm&r=g","first_name":"Micha\u0142","last_name":"Karpowicz","user_url":"","job_title":"","description":"Dyrektor Samsung AI Center w Warszawie, naukowiec w obszarze AI i system\u00f3w z\u0142o\u017conych, pasjonat algebry liniowej, tw\u00f3rca metafaktoryzacji, dwukrotnie profesor wizytuj\u0105cy na Wydziale Matematyki Massachusetts Institute of Technology (MIT)."}],"_links":{"self":[{"href":"https:\/\/haimagazine.com\/pl\/wp-json\/wp\/v2\/posts\/5176","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/haimagazine.com\/pl\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/haimagazine.com\/pl\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/haimagazine.com\/pl\/wp-json\/wp\/v2\/users\/101"}],"replies":[{"embeddable":true,"href":"https:\/\/haimagazine.com\/pl\/wp-json\/wp\/v2\/comments?post=5176"}],"version-history":[{"count":5,"href":"https:\/\/haimagazine.com\/pl\/wp-json\/wp\/v2\/posts\/5176\/revisions"}],"predecessor-version":[{"id":5825,"href":"https:\/\/haimagazine.com\/pl\/wp-json\/wp\/v2\/posts\/5176\/revisions\/5825"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/haimagazine.com\/pl\/wp-json\/wp\/v2\/media\/4751"}],"wp:attachment":[{"href":"https:\/\/haimagazine.com\/pl\/wp-json\/wp\/v2\/media?parent=5176"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/haimagazine.com\/pl\/wp-json\/wp\/v2\/categories?post=5176"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/haimagazine.com\/pl\/wp-json\/wp\/v2\/tags?post=5176"},{"taxonomy":"popular","embeddable":true,"href":"https:\/\/haimagazine.com\/pl\/wp-json\/wp\/v2\/popular?post=5176"},{"taxonomy":"difficulty-level","embeddable":true,"href":"https:\/\/haimagazine.com\/pl\/wp-json\/wp\/v2\/difficulty-level?post=5176"},{"taxonomy":"author","embeddable":true,"href":"https:\/\/haimagazine.com\/pl\/wp-json\/wp\/v2\/ppma_author?post=5176"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}