{"id":4587,"date":"2024-10-29T16:35:07","date_gmt":"2024-10-29T15:35:07","guid":{"rendered":"https:\/\/haimagazine.com\/?p=4587"},"modified":"2025-06-26T11:44:34","modified_gmt":"2025-06-26T09:44:34","slug":"wiele-modeli-i-jeden-agent-ktory-sie-uczy","status":"publish","type":"post","link":"https:\/\/haimagazine.com\/pl\/hai-magazine\/wiele-modeli-i-jeden-agent-ktory-sie-uczy\/","title":{"rendered":"\ud83d\udd12 Wiele modeli i jeden agent, kt\u00f3ry si\u0119 uczy"},"content":{"rendered":"<p>Na przyk\u0142ad \u015brodowisko do Reinforced Learning (RL, z ang. uczenie ze wzmocnieniem), kt\u00f3re wymaga kontrolowania stanu \u015brodowiska, mechanizmu nagr\u00f3d i kar oraz agenta, aby nauczy\u0107 go dokonywania interakcji w tym \u015brodowisku na podstawie nagr\u00f3d za konkretne dzia\u0142ania. RL to technika uczenia maszynowego, kt\u00f3ra znajduje zastosowanie w wielu dziedzinach, od robotyki po gry strategiczne. Cho\u0107 zazwyczaj kojarzy si\u0119 z algorytmami komputerowymi, koncepcja ta mo\u017ce by\u0107 r\u00f3wnie\u017c zastosowana do uczenia ludzi. Jak?<\/p><p>A co, gdyby agentem m\u00f3g\u0142 by\u0107 cz\u0142owiek? Kiedy\u015b zada\u0142em sobie to pytanie i ca\u0142y koncept opisywany w tym artykule bazuje na tej diametralnej r\u00f3\u017cnicy. Zazwyczaj w badaniach nad RL przedmiotem zainteresowania jest sam mechanizm uczenia si\u0119. Poniewa\u017c trudno zamodelowa\u0107 aktualizacj\u0119 wag w m\u00f3zgu ludzkim, mo\u017cna wykorzysta\u0107 sam\u0105 koncepcj\u0119 uczenia ze wzmocnieniem jako metod\u0119 treningu i skupi\u0107 si\u0119 na stworzeniu multimodelowego systemu, kt\u00f3ry pozwoli ludzkiemu agentowi doskonali\u0107 zadane umiej\u0119tno\u015bci w\u0142a\u015bnie w symulowanej p\u0119tli feedbacku.<\/p><p>Na potrzeby tego artyku\u0142u uznajmy wi\u0119c, \u017ce nasz mechanizm uczenia sk\u0142ada si\u0119 z: <\/p><ul class=\"wp-block-list\"><li>agenta, kt\u00f3ry wykonuje akcje na podstawie obserwacji stanu \u015brodowiska; <\/li>\n\n<li>\u015brodowiska, po kt\u00f3rym porusza si\u0119 agent i dokonuje interakcji, otrzymuj\u0105c ocen\u0119\/nagrod\u0119; <\/li>\n\n<li>mechanizmu nagradzania, kt\u00f3ry ocenia dzia\u0142ania agenta w oparciu o stan \u015brodowiska i daje mu lajki lub dislajki, \u017ceby \u00f3w dzia\u0142a\u0142 lepiej w kolejnej iteracji.<\/li><\/ul><figure class=\"wp-block-image size-large is-resized\"><img loading=\"lazy\" decoding=\"async\" width=\"1024\" height=\"877\" src=\"https:\/\/haimagazine.com\/wp-content\/uploads\/2024\/09\/Screenshot-2024-09-30-at-10.51.20-1024x877.png\" alt=\"\" class=\"wp-image-5302\" style=\"width:628px;height:auto\" srcset=\"https:\/\/haimagazine.com\/wp-content\/uploads\/2024\/09\/Screenshot-2024-09-30-at-10.51.20-1024x877.png 1024w, https:\/\/haimagazine.com\/wp-content\/uploads\/2024\/09\/Screenshot-2024-09-30-at-10.51.20-300x257.png 300w, https:\/\/haimagazine.com\/wp-content\/uploads\/2024\/09\/Screenshot-2024-09-30-at-10.51.20-768x658.png 768w, https:\/\/haimagazine.com\/wp-content\/uploads\/2024\/09\/Screenshot-2024-09-30-at-10.51.20-1536x1315.png 1536w, https:\/\/haimagazine.com\/wp-content\/uploads\/2024\/09\/Screenshot-2024-09-30-at-10.51.20-600x514.png 600w, https:\/\/haimagazine.com\/wp-content\/uploads\/2024\/09\/Screenshot-2024-09-30-at-10.51.20.png 1602w\" sizes=\"auto, (max-width: 1024px) 100vw, 1024px\" \/><\/figure><p>W rzeczywisto\u015bci klasyczny RL ma jeszcze kilka istotnych element\u00f3w, ale detale implementacyjne nie b\u0119d\u0105 nam tutaj potrzebne, bo porusza\u0107 si\u0119 b\u0119dziemy po warstwie koncepcyjnej. Skupimy si\u0119 na \u015brodowisku i mechanizmie nagradzania. Chcemy zbudowa\u0107 takie \u015brodowisko, aby to CZ\u0141OWIEK dzia\u0142a\u0142 jak agent, a \u015brodowisko informowa\u0142o go o swoim stanie oraz tym, czy zbli\u017ca si\u0119 do celu, czy si\u0119 od niego oddala.<\/p><p>Poka\u017cemy to na przyk\u0142adzie typowego problemu wielu prze\u0142o\u017conych, czyli zbyt negatywne (emocjonalne) reakcje na dzia\u0142ania pracownika. S\u0142owem, b\u0119dziemy chcieli stworzy\u0107 symulator bycia dobrym managerem.<\/p><p><strong>CEL: nauczy\u0107 agenta, aby przekazywa\u0142 feedback pracownikowi w mo\u017cliwie kulturalny spos\u00f3b. <\/strong><\/p><p>A dok\u0142adniej? Chcemy zmieni\u0107 wypowiedzi agenta w stylu:<\/p><p><em><code>Ty c,******** z******** swoj\u0105 robot\u0119 i teraz firma straci przez pozew od klienta miliony k...........*! Wszystko przez Ciebie i Twoje partactwo!<\/code><\/em><\/p><p>na wywa\u017cone odpowiedzi o wyd\u017awi\u0119ku neutralnym:<\/p><p><em><code>Pisz\u0119, aby wyrazi\u0107 moje zaniepokojenie w zwi\u0105zku z niedawnym incydentem, kt\u00f3ry mo\u017ce skutkowa\u0107 potencjalnym pozwem od naszego klienta. Wygl\u0105da na to, \u017ce podczas realizacji projektu pope\u0142niono pewne b\u0142\u0119dy, co niestety spowodowa\u0142o znacz\u0105ce konsekwencje finansowe dla firmy. B\u0119d\u0119 wdzi\u0119czny, je\u015bli mogliby\u015bmy om\u00f3wi\u0107 t\u0119 spraw\u0119 bardziej szczeg\u00f3\u0142owo, aby zrozumie\u0107, co posz\u0142o nie tak i jak mo\u017cemy zapobiec podobnym problemom w przysz\u0142o\u015bci.<\/code><\/em><\/p><p>Brzmi interesuj\u0105co? To lecimy!<\/p><h4 class=\"wp-block-heading\">Trzeba stworzy\u0107 dwie u\u017cyteczne abstrakcje:<\/h4><p><strong>01&nbsp;BatchRunner&nbsp;<\/strong>\u2013 klas\u0119, kt\u00f3ra odpowiada za odpalanie kilku akcji w spos\u00f3b r\u00f3wnoleg\u0142y \u2013 co przyda nam si\u0119 do budowy \u015brodowiska wielomodelowego.<\/p><p>Koncept:<\/p><figure class=\"wp-block-image size-large is-resized\"><img loading=\"lazy\" decoding=\"async\" width=\"1024\" height=\"431\" src=\"https:\/\/haimagazine.com\/wp-content\/uploads\/2024\/09\/1-1-1024x431.jpg\" alt=\"\" class=\"wp-image-5306\" style=\"width:1023px;height:auto\" srcset=\"https:\/\/haimagazine.com\/wp-content\/uploads\/2024\/09\/1-1-1024x431.jpg 1024w, https:\/\/haimagazine.com\/wp-content\/uploads\/2024\/09\/1-1-300x126.jpg 300w, https:\/\/haimagazine.com\/wp-content\/uploads\/2024\/09\/1-1-768x323.jpg 768w, https:\/\/haimagazine.com\/wp-content\/uploads\/2024\/09\/1-1-600x253.jpg 600w, https:\/\/haimagazine.com\/wp-content\/uploads\/2024\/09\/1-1.jpg 1458w\" sizes=\"auto, (max-width: 1024px) 100vw, 1024px\" \/><\/figure><figure class=\"wp-block-image size-large\"><img loading=\"lazy\" decoding=\"async\" width=\"1024\" height=\"456\" src=\"https:\/\/haimagazine.com\/wp-content\/uploads\/2024\/09\/2-1-1024x456.jpg\" alt=\"\" class=\"wp-image-5308\" srcset=\"https:\/\/haimagazine.com\/wp-content\/uploads\/2024\/09\/2-1-1024x456.jpg 1024w, https:\/\/haimagazine.com\/wp-content\/uploads\/2024\/09\/2-1-300x133.jpg 300w, https:\/\/haimagazine.com\/wp-content\/uploads\/2024\/09\/2-1-768x342.jpg 768w, https:\/\/haimagazine.com\/wp-content\/uploads\/2024\/09\/2-1-600x267.jpg 600w, https:\/\/haimagazine.com\/wp-content\/uploads\/2024\/09\/2-1.jpg 1470w\" sizes=\"auto, (max-width: 1024px) 100vw, 1024px\" \/><\/figure><p><strong>02&nbsp;ConversationController&nbsp;<\/strong>\u2013 klas\u0119 opart\u0105 o wzorzec buildera, kt\u00f3ra przetrzymuje stan do dalszego u\u017cywania i pozwala w wygodny spos\u00f3b zarz\u0105dza\u0107 tworzeniem konwersacji oraz odzyskiwaniem odpowiedzi z w\u0105tk\u00f3w przypisanych asystent\u00f3w.<\/p><figure class=\"wp-block-image size-large\"><img loading=\"lazy\" decoding=\"async\" width=\"1462\" height=\"618\" src=\"https:\/\/haimagazine.com\/wp-content\/uploads\/2024\/09\/3-1024x433.jpg\" alt=\"\" class=\"wp-image-5310\" srcset=\"https:\/\/haimagazine.com\/wp-content\/uploads\/2024\/09\/3-1024x433.jpg 1024w, https:\/\/haimagazine.com\/wp-content\/uploads\/2024\/09\/3-300x127.jpg 300w, https:\/\/haimagazine.com\/wp-content\/uploads\/2024\/09\/3-768x325.jpg 768w, https:\/\/haimagazine.com\/wp-content\/uploads\/2024\/09\/3-600x254.jpg 600w, https:\/\/haimagazine.com\/wp-content\/uploads\/2024\/09\/3.jpg 1462w\" sizes=\"auto, (max-width: 1462px) 100vw, 1462px\" \/><\/figure><p>Pod spodem mo\u017cna dopisa\u0107 g\u0142\u00f3wne strategie odpowiedzi, takie jak text, json czy pobranie danych z bazy wektorowej. Mo\u017cna te\u017c wykona\u0107 optymalizacj\u0119 zapytania do LLM, np. usuwaj\u0105c\u0105 najcz\u0119\u015bciej pojawiaj\u0105ce si\u0119 s\u0142owa (stopwords). Czyli wrapper na dowolne API ulubionego modelu.<\/p><figure class=\"wp-block-image size-large\"><img loading=\"lazy\" decoding=\"async\" width=\"1024\" height=\"234\" src=\"https:\/\/haimagazine.com\/wp-content\/uploads\/2024\/09\/4-1-1024x234.jpg\" alt=\"\" class=\"wp-image-5312\" srcset=\"https:\/\/haimagazine.com\/wp-content\/uploads\/2024\/09\/4-1-1024x234.jpg 1024w, https:\/\/haimagazine.com\/wp-content\/uploads\/2024\/09\/4-1-300x69.jpg 300w, https:\/\/haimagazine.com\/wp-content\/uploads\/2024\/09\/4-1-768x175.jpg 768w, https:\/\/haimagazine.com\/wp-content\/uploads\/2024\/09\/4-1-600x137.jpg 600w, https:\/\/haimagazine.com\/wp-content\/uploads\/2024\/09\/4-1.jpg 1462w\" sizes=\"auto, (max-width: 1024px) 100vw, 1024px\" \/><\/figure><p>To teraz mo\u017cemy wr\u00f3ci\u0107 do naszego problemu przekazywania negatywnego feedbacku w bardziej przyjazny spos\u00f3b.<\/p><h4 class=\"wp-block-heading\"><strong>Zaczynamy od \u015brodowiska, kt\u00f3re zbuduje symulacj\u0119.<\/strong><\/h4><p>Za\u0142\u00f3\u017cmy, \u017ce symulacja, kt\u00f3r\u0105 ma obrazowa\u0107 \u015brodowisko, sprowadza si\u0119 do rozmowy z awatarem na temat sytuacji w firmie.<\/p><p>Agent musi zareagowa\u0107 na sytuacj\u0119, kt\u00f3r\u0105 wygenerowa\u0142 awatar. Zareagowa\u0107 w spos\u00f3b, kt\u00f3ry nie sprawi, \u017ce awatar b\u0119dzie chcia\u0142 pozwa\u0107 twoj\u0105 firm\u0119 o mobbing. Dodatkowym celem niech b\u0119dzie obni\u017cenie poziomu stresu wywo\u0142anego t\u0105, z za\u0142o\u017cenia niemi\u0142\u0105, wymian\u0105 zda\u0144. <\/p><p>Wobec tego nasze \u015brodowisko obejmuje: <\/p><ul class=\"wp-block-list\"><li>charakterystyk\u0119 awatara-pracownika, z kt\u00f3rym rozmawiamy; <\/li>\n\n<li>t\u0142o sytuacji, o kt\u00f3rej musimy da\u0107 feedback; <\/li>\n\n<li>agend\u0119 rozmowy do przeprowadzenia i list\u0119 informacji, kt\u00f3re musz\u0105 si\u0119 w niej pojawi\u0107; <\/li>\n\n<li>ustalony dopuszczalny g\u00f3rny pr\u00f3g poziomu \u201estresu\u201d, po osi\u0105gni\u0119ciu kt\u00f3rego symulacja si\u0119 ko\u0144czy.<\/li><\/ul><p>Od czego m\u00f3g\u0142by zaczyna\u0107 si\u0119 taki symulator?<\/p><p> <img loading=\"lazy\" decoding=\"async\" width=\"400\" height=\"359\" class=\"wp-image-5505\" style=\"width: 400px;\" src=\"https:\/\/haimagazine.com\/wp-content\/uploads\/2024\/09\/alex.png\" alt=\"\" srcset=\"https:\/\/haimagazine.com\/wp-content\/uploads\/2024\/09\/alex.png 897w, https:\/\/haimagazine.com\/wp-content\/uploads\/2024\/09\/alex-300x269.png 300w, https:\/\/haimagazine.com\/wp-content\/uploads\/2024\/09\/alex-768x689.png 768w, https:\/\/haimagazine.com\/wp-content\/uploads\/2024\/09\/alex-600x538.png 600w\" sizes=\"auto, (max-width: 400px) 100vw, 400px\" \/><\/p><p>Zaczynamy wi\u0119c od wysoko ustawionej poprzeczki, bo taki awatar to na starcie trudny przypadek.<\/p><p>Jakby ma\u0142o mia\u0142 emocji, nasz m\u0142ody kierowca podczas parkowania wjecha\u0142 w ramp\u0119, powoduj\u0105c uszkodzenia naczepy, rampy oraz towaru. S\u0142owem: szkody na setki tysi\u0119cy z\u0142otych. Sytuacja nie do pozazdroszczenia, ale niech pierwszy rzuci kamieniem ten, kto nigdy niczego teatralnie nie spieprzy\u0142 w swojej pracy. Cho\u0107 mo\u017ce przynajmniej koszty by\u0142y mniej spektakularne.<\/p><p>Agenda rozmowy zawiera:<\/p><ul class=\"wp-block-list\"><li>wypytanie kierowcy o szczeg\u00f3\u0142y przebiegu sytuacji, czyli jego wra\u017cenia i jego punkt widzenia;<\/li>\n\n<li>uspokojenie go, \u017ce \u017cadnej osobie nie sta\u0142a si\u0119 krzywda podczas tego wypadku;<\/li>\n\n<li>poinformowanie, \u017ce zar\u00f3wno towar, jak i samoch\u00f3d s\u0105 ubezpieczone na takie przypadki;<\/li>\n\n<li>jednoczesne przekazanie niewygodnej informacji o konieczno\u015bci pokrycia koszt\u00f3w odbudowy rampy rz\u0119du 50 tysi\u0119cy z\u0142otych przez firm\u0119, co prze\u0142o\u017cy si\u0119 na obci\u0119cie premii Alexa przez najbli\u017csze sze\u015b\u0107 miesi\u0119cy;<\/li>\n\n<li>zapewnienie delikwenta, \u017ce firma daje mu jeszcze jedn\u0105 szans\u0119 z uwagi na jego brak do\u015bwiadczenia i m\u0142ody wiek.<\/li><\/ul><p><strong>Startowy poziom stresu<\/strong> Alexa to wysokie 8\/10 (brak do\u015bwiadczenia sprawia, \u017ce jeszcze nie do ko\u0144ca zdaje sobie spraw\u0119, w co si\u0119 wpakowa\u0142), a t\u0105 rozmow\u0105 mamy go obni\u017cy\u0107 do maks. 4\/10, by uzna\u0107, \u017ce symulacja zosta\u0142a zako\u0144czona sukcesem.<\/p><p>Zostaje nam tylko posadzi\u0107 naszego agenta przed symulatorem i wcisn\u0105\u0107 <strong>START<\/strong>, by zobaczy\u0107, jak sobie poradzi.<\/p><p><strong>100%<\/strong> frajdy z nauki i pope\u0142niania b\u0142\u0119d\u00f3w \u2013 bez konsekwencji w realnym \u017cyciu!<\/p><p>To znaczy konsekwencje b\u0119d\u0105, ale wy\u0142\u0105cznie pozytywne. Po jakich\u015b dwudziestu sesjach z r\u00f3\u017cnymi awatarami nasz agent b\u0119dzie ca\u0142kiem solidnie przetrenowany do radzenia sobie z r\u00f3\u017cnymi prostszymi i trudniejszymi przypadkami w \u017cyciu codziennym.<\/p><p>A co z implementacj\u0105? <\/p><p>We\u017a sw\u00f3j ulubiony du\u017cy model j\u0119zykowy, a prompty pisz tak, aby dzia\u0142a\u0142y jak jednozadaniowe funkcje zwracaj\u0105ce sp\u00f3jny JSON na podstawie inputu agenta.<\/p><p>Tutaj znajdziesz szkielet promptu, kt\u00f3ry b\u0119dzie pasowa\u0107 do schematu jednozadaniowej funkcji zwracaj\u0105cej JSON:<\/p><p><em><code>'''markdown<\/code><\/em><br>O<em><code>to aktualna lista cel\u00f3w do osi\u0105gni\u0119cia podczas tej rozmowy:<br>[lista_celow_w_jsonie]<br>Jako analityk rozmowy otrzymasz ostatnie 5 wiadomo\u015bci z rozmowy i Twoim zadaniem jest upewni\u0107 si\u0119, kt\u00f3re niezrealizowane jeszcze cele zosta\u0142y zrealizowane w ostatnich 5 wiadomo\u015bciach.<br>Ostatnie 5 wiadomo\u015bci z rozmowy:<br>[lista_ostatnich_wiadmosci]<br>Odpowiedz fragmentem JSONa o identycznej strukturze, w kt\u00f3rym b\u0119d\u0105 tylko te cele, kt\u00f3re zosta\u0142y osi\u0105gni\u0119te w ostatnich 5 wiadomo\u015bciach.<\/code><\/em><\/p><p>Generujemy charakterystyk\u0119 Alexa i sytuacj\u0119, kt\u00f3ra si\u0119 zdarzy\u0142a:<\/p><figure class=\"wp-block-image size-large\"><img loading=\"lazy\" decoding=\"async\" width=\"1024\" height=\"480\" src=\"https:\/\/haimagazine.com\/wp-content\/uploads\/2024\/09\/5-1024x480.jpg\" alt=\"\" class=\"wp-image-5314\" srcset=\"https:\/\/haimagazine.com\/wp-content\/uploads\/2024\/09\/5-1024x480.jpg 1024w, https:\/\/haimagazine.com\/wp-content\/uploads\/2024\/09\/5-300x141.jpg 300w, https:\/\/haimagazine.com\/wp-content\/uploads\/2024\/09\/5-768x360.jpg 768w, https:\/\/haimagazine.com\/wp-content\/uploads\/2024\/09\/5-600x281.jpg 600w, https:\/\/haimagazine.com\/wp-content\/uploads\/2024\/09\/5.jpg 1472w\" sizes=\"auto, (max-width: 1024px) 100vw, 1024px\" \/><\/figure><p>Na podstawie sytuacji generujemy agend\u0119, kt\u00f3ra jest planem dla tego konkretnego przypadku:<\/p><figure class=\"wp-block-image size-large\"><img loading=\"lazy\" decoding=\"async\" width=\"1024\" height=\"230\" src=\"https:\/\/haimagazine.com\/wp-content\/uploads\/2024\/09\/6-1024x230.jpg\" alt=\"\" class=\"wp-image-5316\" srcset=\"https:\/\/haimagazine.com\/wp-content\/uploads\/2024\/09\/6-1024x230.jpg 1024w, https:\/\/haimagazine.com\/wp-content\/uploads\/2024\/09\/6-300x67.jpg 300w, https:\/\/haimagazine.com\/wp-content\/uploads\/2024\/09\/6-768x173.jpg 768w, https:\/\/haimagazine.com\/wp-content\/uploads\/2024\/09\/6-600x135.jpg 600w, https:\/\/haimagazine.com\/wp-content\/uploads\/2024\/09\/6.jpg 1460w\" sizes=\"auto, (max-width: 1024px) 100vw, 1024px\" \/><\/figure><p>Oraz ustawiamy pocz\u0105tkowy poziom stresu:<\/p><figure class=\"wp-block-image size-large\"><img loading=\"lazy\" decoding=\"async\" width=\"1024\" height=\"254\" src=\"https:\/\/haimagazine.com\/wp-content\/uploads\/2024\/09\/7-1024x254.jpg\" alt=\"\" class=\"wp-image-5318\" srcset=\"https:\/\/haimagazine.com\/wp-content\/uploads\/2024\/09\/7-1024x254.jpg 1024w, https:\/\/haimagazine.com\/wp-content\/uploads\/2024\/09\/7-300x74.jpg 300w, https:\/\/haimagazine.com\/wp-content\/uploads\/2024\/09\/7-768x190.jpg 768w, https:\/\/haimagazine.com\/wp-content\/uploads\/2024\/09\/7-600x149.jpg 600w, https:\/\/haimagazine.com\/wp-content\/uploads\/2024\/09\/7.jpg 1462w\" sizes=\"auto, (max-width: 1024px) 100vw, 1024px\" \/><\/figure><p>Mamy ju\u017c wszystkie sk\u0142adowe, teraz trzeba to w\u0142o\u017cy\u0107 w zgrabne \u015brodowisko dopasowane do agenta.<\/p><p>No bo w\u0142a\u015bnie \u2013 nie mo\u017cemy zapomnie\u0107 o naszym ludzkim agencie, kt\u00f3ry znajduje si\u0119 w centrum tego konceptu. Potrzebujemy wi\u0119c funkcji, kt\u00f3ra umo\u017cliwia pobranie reakcji naszego agenta na dan\u0105 sytuacj\u0119:<\/p><figure class=\"wp-block-image size-large\"><img loading=\"lazy\" decoding=\"async\" width=\"1406\" height=\"176\" src=\"https:\/\/haimagazine.com\/wp-content\/uploads\/2024\/09\/8-1024x128.jpg\" alt=\"\" class=\"wp-image-5320\" srcset=\"https:\/\/haimagazine.com\/wp-content\/uploads\/2024\/09\/8-1024x128.jpg 1024w, https:\/\/haimagazine.com\/wp-content\/uploads\/2024\/09\/8-300x38.jpg 300w, https:\/\/haimagazine.com\/wp-content\/uploads\/2024\/09\/8-768x96.jpg 768w, https:\/\/haimagazine.com\/wp-content\/uploads\/2024\/09\/8-600x75.jpg 600w, https:\/\/haimagazine.com\/wp-content\/uploads\/2024\/09\/8.jpg 1406w\" sizes=\"auto, (max-width: 1406px) 100vw, 1406px\" \/><\/figure><p>Istotne jest te\u017c pokazanie agentowi kolejnego kroku \u015brodowiska w ulubionym GUI:<\/p><figure class=\"wp-block-image size-large\"><img loading=\"lazy\" decoding=\"async\" width=\"1024\" height=\"130\" src=\"https:\/\/haimagazine.com\/wp-content\/uploads\/2024\/09\/9-1024x130.jpg\" alt=\"\" class=\"wp-image-5322\" srcset=\"https:\/\/haimagazine.com\/wp-content\/uploads\/2024\/09\/9-1024x130.jpg 1024w, https:\/\/haimagazine.com\/wp-content\/uploads\/2024\/09\/9-300x38.jpg 300w, https:\/\/haimagazine.com\/wp-content\/uploads\/2024\/09\/9-768x98.jpg 768w, https:\/\/haimagazine.com\/wp-content\/uploads\/2024\/09\/9-600x76.jpg 600w, https:\/\/haimagazine.com\/wp-content\/uploads\/2024\/09\/9.jpg 1336w\" sizes=\"auto, (max-width: 1024px) 100vw, 1024px\" \/><\/figure><p>Oraz zakodowanie interakcji agenta ze \u015brodowiskiem:<\/p><figure class=\"wp-block-image size-large\"><img loading=\"lazy\" decoding=\"async\" width=\"1024\" height=\"858\" src=\"https:\/\/haimagazine.com\/wp-content\/uploads\/2024\/09\/10-1024x858.jpg\" alt=\"\" class=\"wp-image-5324\" srcset=\"https:\/\/haimagazine.com\/wp-content\/uploads\/2024\/09\/10-1024x858.jpg 1024w, https:\/\/haimagazine.com\/wp-content\/uploads\/2024\/09\/10-300x251.jpg 300w, https:\/\/haimagazine.com\/wp-content\/uploads\/2024\/09\/10-768x643.jpg 768w, https:\/\/haimagazine.com\/wp-content\/uploads\/2024\/09\/10-600x503.jpg 600w, https:\/\/haimagazine.com\/wp-content\/uploads\/2024\/09\/10.jpg 1392w\" sizes=\"auto, (max-width: 1024px) 100vw, 1024px\" \/><\/figure><p>Na samym ko\u0144cu \u0142\u0105czymy ca\u0142o\u015b\u0107 makiety dzia\u0142ania takiego symulatora:<\/p><figure class=\"wp-block-image size-large\"><img loading=\"lazy\" decoding=\"async\" width=\"946\" height=\"1024\" src=\"https:\/\/haimagazine.com\/wp-content\/uploads\/2024\/09\/11-946x1024.jpg\" alt=\"\" class=\"wp-image-5327\" srcset=\"https:\/\/haimagazine.com\/wp-content\/uploads\/2024\/09\/11-946x1024.jpg 946w, https:\/\/haimagazine.com\/wp-content\/uploads\/2024\/09\/11-277x300.jpg 277w, https:\/\/haimagazine.com\/wp-content\/uploads\/2024\/09\/11-768x832.jpg 768w, https:\/\/haimagazine.com\/wp-content\/uploads\/2024\/09\/11-1418x1536.jpg 1418w, https:\/\/haimagazine.com\/wp-content\/uploads\/2024\/09\/11-600x650.jpg 600w, https:\/\/haimagazine.com\/wp-content\/uploads\/2024\/09\/11.jpg 1458w\" sizes=\"auto, (max-width: 946px) 100vw, 946px\" \/><\/figure><p>Aby by\u0142o \u0142atwiej zrozumie\u0107, jak to si\u0119 dzieje, poni\u017cejj zostawiam graf, kt\u00f3ry przedstawia ca\u0142e dzia\u0142anie kodu. <\/p><figure class=\"wp-block-image size-large\"><img loading=\"lazy\" decoding=\"async\" width=\"1024\" height=\"495\" src=\"https:\/\/haimagazine.com\/wp-content\/uploads\/2024\/09\/Screenshot-2024-09-30-at-10.57.41-1024x495.png\" alt=\"\" class=\"wp-image-5329\" srcset=\"https:\/\/haimagazine.com\/wp-content\/uploads\/2024\/09\/Screenshot-2024-09-30-at-10.57.41-1024x495.png 1024w, https:\/\/haimagazine.com\/wp-content\/uploads\/2024\/09\/Screenshot-2024-09-30-at-10.57.41-300x145.png 300w, https:\/\/haimagazine.com\/wp-content\/uploads\/2024\/09\/Screenshot-2024-09-30-at-10.57.41-768x371.png 768w, https:\/\/haimagazine.com\/wp-content\/uploads\/2024\/09\/Screenshot-2024-09-30-at-10.57.41-600x290.png 600w, https:\/\/haimagazine.com\/wp-content\/uploads\/2024\/09\/Screenshot-2024-09-30-at-10.57.41.png 1228w\" sizes=\"auto, (max-width: 1024px) 100vw, 1024px\" \/><\/figure><p>Na koniec zostawi\u0142em jeszcze temat, kt\u00f3ry wy\u017cej zosta\u0142 pomini\u0119ty, a jest wa\u017cny w RL \u2013 mechanizm nagradzania agenta, w naszym przypadku ludzkiego.<\/p><p>Standardowo w uczeniu ze wzmocnieniem mechanizm nagradzania jest oparty na konkretnej metryce oceny, wyliczanej w okre\u015blony spos\u00f3b na podstawie akcji w stanie \u015brodowiska.<\/p><p>W naszym przypadku, dzi\u0119ki temu, \u017ce budujemy \u015brodowisko z u\u017cyciem wielu modeli, w tym LLM-\u00f3w o szerokich mo\u017cliwo\u015bciach, przyj\u0119ta miara oceny mo\u017ce by\u0107 zar\u00f3wno bardzo abstrakcyjna, jak i og\u00f3lna. Na przyk\u0142ad promptujemy po prostu liczb\u0119 od 1 do 10 na podstawie stanu rozmowy albo szczeg\u00f3\u0142owo doprecyzowujemy dla ka\u017cdej symulacji. Wtedy prompt generuj\u0105cy nagrod\u0119 mo\u017ce zawiera\u0107 konkretne zakresy, czyli np. zbi\u00f3r akcji, kt\u00f3re musi wykona\u0107 agent, aby zbi\u0107 poziom stresu swojego symulowanego rozm\u00f3wcy, \u017ceby w efekcie uzyska\u0107 pozytywn\u0105 (i pozytywnie motywuj\u0105c\u0105) ocen\u0119.<\/p><p>Mo\u017cliwo\u015bci jest wiele i to od nas zale\u017cy, jak zamodelujemy takie treningowe \u015brodowisko. Troch\u0119 tak, jakby\u015bmy tworzyli \u201egr\u0119 w \u017cycie\u201d, Simsy na sterydach, ale z iteracyjnym i przyczynowo-skutkowym procesem doskonalenia si\u0119 postaci. Ta posta\u0107 mo\u017ce dowolnie d\u0142ugo pr\u00f3bowa\u0107, b\u0142\u0105dzi\u0107 i szuka\u0107 lepszych rozwi\u0105za\u0144, by wreszcie opanowa\u0107 dan\u0105 umiej\u0119tno\u015b\u0107 \u2013 w naszym przypadku mistrzostwo w komunikacji kryzysowej.<\/p><h4 class=\"wp-block-heading\"><strong>Podsumowuj\u0105c, dwie najwi\u0119ksze warto\u015bci wynikaj\u0105ce z tak zaprojektowanego symulatora to:<\/strong><\/h4><ol class=\"wp-block-list\"><li>Przy dobrze zamodelowanym \u015brodowisku, odzwierciedlaj\u0105cym interesuj\u0105ce nas zasady panuj\u0105ce w prawdziwych uk\u0142adach biznesowych czy osobistych, powstaje realna mo\u017cliwo\u015b\u0107 przekonania si\u0119 na w\u0142asnej sk\u00f3rze, a jednocze\u015bnie zupe\u0142nie bez realnych konsekwencji, jak dzia\u0142a to \u015brodowisko, czyli jakie reakcje wywo\u0142aj\u0105 konkretne akcje podejmowane przez agenta.<\/li>\n\n<li>Skr\u00f3cenie p\u0119tli feedbacku do minimum \u2013 tworz\u0105c system oparty na takich modelach jak Grog, jeste\u015bmy w stanie uzyska\u0107 do 1200 token\u00f3w (ponad 2 strony czystego tekstu) w jedn\u0105 tylko sekund\u0119. Tyle s\u0142\u00f3w naraz nie jest w stanie wypowiedzie\u0107 nawet najbardziej wpieniony szef.<\/li><\/ol><p>I co wi\u0119cej \u2013 w przeciwie\u0144stwie do klasycznych symulacji opartych na drzewach decyzyjnych z g\u00f3ry przewidzianych element\u00f3w scenariusza wielkie modele j\u0119zykowe sprz\u0119gni\u0119te w systemy wielomodelowe pozwalaj\u0105 na kreatywne i w tym sensie bardziej \u201eidentyczne z naturalnym\u201d modelowanie \u015brodowiska, a tym samym bli\u017cszy rzeczywistym sytuacjom poligon do\u015bwiadczalny. Sporo si\u0119 m\u00f3wi o trenowaniu umiej\u0119tno\u015bci mi\u0119kkich jako ludzkich kompetencji przysz\u0142o\u015bci \u2013 a to jeden z dost\u0119pnych i skalowalnych sposob\u00f3w na samodoskonalenie si\u0119. Kto wie, mo\u017ce kiedy\u015b takie symulatory zawitaj\u0105 do szk\u00f3\u0142, uczelni czy firm i uzupe\u0142ni\u0105 teoretyczn\u0105 wiedz\u0119?<\/p><p><\/p>","protected":false},"excerpt":{"rendered":"<p>System multimodelowy to z\u0142o\u017cony uk\u0142ad sk\u0142adaj\u0105cy si\u0119 z wielu modeli, kt\u00f3re wsp\u00f3\u0142pracuj\u0105 ze sob\u0105, aby rozwi\u0105za\u0107 skomplikowane zadania lub symulowa\u0107 z\u0142o\u017cone \u015brodowiska. <\/p>\n","protected":false},"author":120,"featured_media":4588,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"_acf_changed":false,"rank_math_lock_modified_date":false,"footnotes":""},"categories":[402,763,754,404,406],"tags":[83,103],"popular":[],"difficulty-level":[37],"ppma_author":[384],"class_list":["post-4587","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-hai-magazine","category-ai_praktyka","category-hai_premium","category-hai-magazine-2","category-tutoriale-pl","tag-ai","tag-tutorial","difficulty-level-hard"],"acf":[],"authors":[{"term_id":384,"user_id":120,"is_guest":0,"slug":"przemyslaw-jozwiakowski","display_name":"Przemys\u0142aw J\u00f3\u017awiakowski","avatar_url":"https:\/\/secure.gravatar.com\/avatar\/833d766904ca46c022f543dfb21b4f194280c23c01f77d2345cc762f605cba89?s=96&d=mm&r=g","first_name":"Przemys\u0142aw","last_name":"J\u00f3\u017awiakowski","user_url":"","job_title":"","description":""}],"_links":{"self":[{"href":"https:\/\/haimagazine.com\/pl\/wp-json\/wp\/v2\/posts\/4587","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/haimagazine.com\/pl\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/haimagazine.com\/pl\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/haimagazine.com\/pl\/wp-json\/wp\/v2\/users\/120"}],"replies":[{"embeddable":true,"href":"https:\/\/haimagazine.com\/pl\/wp-json\/wp\/v2\/comments?post=4587"}],"version-history":[{"count":7,"href":"https:\/\/haimagazine.com\/pl\/wp-json\/wp\/v2\/posts\/4587\/revisions"}],"predecessor-version":[{"id":6176,"href":"https:\/\/haimagazine.com\/pl\/wp-json\/wp\/v2\/posts\/4587\/revisions\/6176"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/haimagazine.com\/pl\/wp-json\/wp\/v2\/media\/4588"}],"wp:attachment":[{"href":"https:\/\/haimagazine.com\/pl\/wp-json\/wp\/v2\/media?parent=4587"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/haimagazine.com\/pl\/wp-json\/wp\/v2\/categories?post=4587"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/haimagazine.com\/pl\/wp-json\/wp\/v2\/tags?post=4587"},{"taxonomy":"popular","embeddable":true,"href":"https:\/\/haimagazine.com\/pl\/wp-json\/wp\/v2\/popular?post=4587"},{"taxonomy":"difficulty-level","embeddable":true,"href":"https:\/\/haimagazine.com\/pl\/wp-json\/wp\/v2\/difficulty-level?post=4587"},{"taxonomy":"author","embeddable":true,"href":"https:\/\/haimagazine.com\/pl\/wp-json\/wp\/v2\/ppma_author?post=4587"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}