{"id":4512,"date":"2024-10-03T12:56:59","date_gmt":"2024-10-03T12:56:59","guid":{"rendered":"https:\/\/haimagazine.com\/?p=4512"},"modified":"2025-06-26T13:28:30","modified_gmt":"2025-06-26T11:28:30","slug":"jak-sprawdzac-czy-model-halucynuje","status":"publish","type":"post","link":"https:\/\/haimagazine.com\/pl\/hai-magazine\/jak-sprawdzac-czy-model-halucynuje\/","title":{"rendered":"\ud83d\udd12 Jak sprawdza\u0107, czy model halucynuje?"},"content":{"rendered":"<p class=\"wp-block-paragraph\">Kiedy pojawi\u0142 si\u0119 ChatGPT oparty o model GPT-3.5, wiele os\u00f3b na X (dawnym Twitterze) czy innych portalach spo\u0142eczno\u015bciowych zacz\u0119\u0142o publikowa\u0107 przyk\u0142ady wpadek tego modelu, tzn. konwersacji, gdzie w odpowiedzi otrzymywali totalny nonsens, b\u0142\u0119dne fakty czy absurdalne (czasem wr\u0119cz niebezpieczne) porady.<\/p><p class=\"wp-block-paragraph\">Jak ka\u017cdy chatbot, ten te\u017c przeszed\u0142 pr\u00f3b\u0119 ognia, czyli wszelkie jailbreaki (specjalnie zmodyfikowane instrukcje, wi\u0119cej na ten temat mo\u017cna przeczyta\u0107 w artykule Miko\u0142aja Kowalczyka), kt\u00f3re mia\u0142y go \u201esprowadzi\u0107 na z\u0142\u0105 drog\u0119\u201d i dostarczy\u0107 powod\u00f3w do ob\u015bmiania. Maj\u0105c miliony tester\u00f3w, OpenAI stara\u0142o si\u0119 na bie\u017c\u0105co reagowa\u0107 na te problemy, inni dostawcy modeli generatywnych, ucz\u0105c si\u0119 na b\u0142\u0119dach konkurencji, starali si\u0119 ulepsza\u0107 swoje modele jeszcze przed ich upublicznieniem \u2013 ale przy takiej skali potencjalnych zapyta\u0144 to wci\u0105\u017c walka z wiatrakami. Kiedy uda\u0142o si\u0119 im opanowa\u0107 jeden temat, to inny nadal rado\u015bnie mija\u0142 si\u0119 z prawd\u0105. Te czasem zabawne wpadki dosta\u0142y oficjaln\u0105 nazw\u0119 \u201ehalucynacji\u201d, mimo \u017ce mogliby\u015bmy je nazywa\u0107 dos\u0142ownie \u201eb\u0142\u0119dnymi odpowiedziami lub predykcjami modelu\u201d, ale to oczywi\u015bcie ma\u0142o no\u015bna, szczeg\u00f3lnie dziennikarsko, nazwa. Na Wikipedii artyku\u0142 opisuj\u0105cy to zjawisko w \u015bwiecie AI pojawi\u0142 si\u0119 pod koniec 2022 roku, czyli dok\u0142adnie wtedy, gdy upubliczniony zosta\u0142 dost\u0119p do ChatGPT.<\/p><p class=\"wp-block-paragraph\">Czy halucynacje to naprawd\u0119 problem LLM-\u00f3w? Kiedy pracujesz nad asystentem AI, ludzie b\u0119d\u0105 wytyka\u0107 Ci wszelkie przyk\u0142ady b\u0142\u0119dnych odpowiedzi, ale czy jest to naprawd\u0119 problem samych wielkich modeli j\u0119zykowych?<\/p><p class=\"wp-block-paragraph\">Na ten temat <a href=\"https:\/\/x.com\/karpathy\/status\/1733299213503787018?fbclid=IwY2xjawFnd39leHRuA2FlbQIxMAABHWhRvGtW-4rGzzScTY67ik_B8OEs6eP2M7-UtNfv4bRFvWXPiad_MqSGWA_aem_I2i0vlZ3K5YJ8aZDraOm1w\" target=\"_blank\">zabra\u0142 <\/a><mark style=\"background-color:#82D65E\" class=\"has-inline-color has-base-color\"><a href=\"https:\/\/x.com\/karpathy\/status\/1733299213503787018?fbclid=IwY2xjawFnd39leHRuA2FlbQIxMAABHWhRvGtW-4rGzzScTY67ik_B8OEs6eP2M7-UtNfv4bRFvWXPiad_MqSGWA_aem_I2i0vlZ3K5YJ8aZDraOm1w\" target=\"_blank\"><strong>g\u0142os jeden z najbardziej cenionych w \u015brodowisku in\u017cyniersko-naukowym badaczy \u2013 Andrey Karpathy<\/strong><\/a> <\/mark>(wsp\u00f3\u0142tw\u00f3rca m.in. ImageNet, by\u0142y dyrektor ds. AI w Tesli oraz cz\u0142onek za\u0142o\u017cyciel OpenAI) i bardzo polecam lektur\u0119 ca\u0142ego wpisu.<\/p><p class=\"wp-block-paragraph\">Ciekawie por\u00f3wnuje w nim LLM-y i silniki wyszukiwarek, podchodz\u0105c do halucynacji jak do ich wa\u017cnej zalety, a nie wady \u2013 \u201eHallucination is not a bug, it is LLM\u2019s greatest feature\u201d. <\/p><p class=\"wp-block-paragraph\">Oczywi\u015bcie, je\u015bli pracujesz nad asystentami, najpewniej spotkasz jednak klient\u00f3w, kt\u00f3rzy maj\u0105 nieco odmienne zdanie w tej sprawie.<\/p><h4 class=\"wp-block-heading\"><strong><mark style=\"background-color:rgba(0, 0, 0, 0);color:#f19337\" class=\"has-inline-color\">\u201eDisclaimers\u201d<\/mark><\/strong><\/h4><figure class=\"wp-block-table is-style-stripes\"><table class=\"has-fixed-layout\"><tbody><tr><td><em>Niekt\u00f3rzy w bran\u017cy nie lubi\u0105, gdy antropomorfizujemy modele, czyli nadajemy im ludzkie cechy, m\u00f3wi\u0105c, \u017ce model \u201emy\u015bli\u201d, \u201ewie\u201d, \u201erozmawia\u201d itd. Bo w ko\u0144cu to \u201etylko\u201d automat do wypluwania nast\u0119pnego s\u0142owa. Natomiast bez tego pseudoucz\u0142owieczenia nale\u017ca\u0142oby w tek\u015bcie powt\u00f3rzy\u0107 wiele razy \u201emodel wykonuje predykcj\u0119\u201d, a du\u017co lepiej si\u0119 czyta \u201eodpowiedzia\u0142 na pytanie\u201d, wi\u0119c pozwol\u0119 sobie na ten styl pisania i my\u015blenia o wielkich modelach<\/em>.<br><br><em>Cz\u0119sto te\u017c u\u017cywa si\u0119 okre\u015blenia LLM, maj\u0105c na my\u015bli zar\u00f3wno sam wielki model j\u0119zykowy, jak i z\u0142o\u017cony system dialogowy oparty o te modele, jak ChatGPT, Claude czy Perplexity, kt\u00f3ry mo\u017ce odpyta\u0107 internet, zweryfikowa\u0107 dodatkowo odpowied\u017a (czy nawet samo zapytanie), zastosowa\u0107 odpowiednie filtry tre\u015bci, skorzysta\u0107 z odpowiedzi na podobne pytanie zapisane w historii, u\u017cy\u0107 wiedzy o u\u017cytkowniku (\u201epami\u0119\u0107\u201d w ChatGPT) czy te\u017c jego preferencji (ustawienia \u201esystem prompt \/ instructions\u201d z ChatGPT). Sam model pewnych z tych rzeczy nie b\u0119dzie \u201eumia\u0142\u201d, co wynika i z danych treningowych, i z samej architektury modeli. Mo\u017cemy je dla rozr\u00f3\u017cnienia nazywa\u0107 \u201esamodzielny LLM\u201d i \u201esystem LLM (czy te\u017c asystent LLM)\u201d &#8211; w niekt\u00f3rych sytuacjach mo\u017ce to by\u0107 kluczowe.<\/em><br><br><em>Je\u015bli czujecie potrzeb\u0119 zapoznania si\u0119 z mechanizmami dzia\u0142ania du\u017cych modeli i opartych na nich system\u00f3w polecam gigantyczny <a href=\"https:\/\/writings.stephenwolfram.com\/2023\/02\/what-is-chatgpt-doing-and-why-does-it-work\/?fbclid=IwY2xjawFndrVleHRuA2FlbQIxMAABHRJ1AnlDVO8GYzNYb4Sjtpf09nPod9V933A5Rz-hwI0nHO2Yf6gnPVhJjQ_aem_JNoXuhDqLFMB6pPnKUPjmw\" target=\"_blank\" rel=\"noopener\"><strong><mark><mark style=\"background-color:#82D65E\" class=\"has-inline-color has-base-color\">te<\/mark><\/mark><\/strong><\/a><mark><strong><mark style=\"background-color:#82D65E\" class=\"has-inline-color has-base-color\"><a href=\"https:\/\/writings.stephenwolfram.com\/2023\/02\/what-is-chatgpt-doing-and-why-does-it-work\/?fbclid=IwY2xjawFndrVleHRuA2FlbQIxMAABHRJ1AnlDVO8GYzNYb4Sjtpf09nPod9V933A5Rz-hwI0nHO2Yf6gnPVhJjQ_aem_JNoXuhDqLFMB6pPnKUPjmw\" target=\"_blank\" rel=\"noopener\">kst Stephena Wolframa<\/a> <\/mark><\/strong><\/mark>wyja\u015bniaj\u0105cy krok po kroku najwa\u017cniejsze zasady. To ca\u0142kiem dobry punkt wyj\u015bcia do dalszego zg\u0142\u0119biania tego tematu.<\/em><\/td><\/tr><\/tbody><\/table><\/figure><p class=\"wp-block-paragraph\"><\/p><h3 class=\"wp-block-heading\"><strong><mark style=\"background-color:rgba(0, 0, 0, 0);color:#f19337\" class=\"has-inline-color\">Rodzaje b\u0142\u0119d\u00f3w \/ halucynacje<\/mark><\/strong><\/h3><p class=\"wp-block-paragraph\">Samo s\u0142owo \u201ehalucynacja\u201d (niekt\u00f3rzy wol\u0105 \u201ekonfabulacja\u201d) jest odrobin\u0119 ma\u0142o precyzyjne. Spr\u00f3bujmy si\u0119 przyjrze\u0107 temu troch\u0119 dok\u0142adniej.<\/p><h4 class=\"wp-block-heading\"><strong><mark style=\"background-color:rgba(0, 0, 0, 0);color:#f19337\" class=\"has-inline-color\">Typy halucynacji, z jakimi mo\u017cemy si\u0119 spotka\u0107.<\/mark><\/strong><\/h4><p class=\"wp-block-paragraph\"><strong>B\u0142\u0119dy dotycz\u0105ce fakt\u00f3w i wiedzy,<\/strong> czyli zadajesz pytanie o dyskografi\u0119 zespo\u0142u i nagle pojawiaj\u0105 si\u0119 nieistniej\u0105ce p\u0142yty. Albo pytasz o elementy czyjego\u015b \u017cyciorysu i dostajesz b\u0142\u0119dn\u0105 uczelni\u0119 czy rok. Niekt\u00f3re b\u0142\u0119dy tego typu bywaj\u0105 fatalne w skutkach: np. model Google Bard (poprzednik Gemini) \u017ale odpowiedzia\u0142 na pytanie z astronomii, co spowodowa\u0142o masywny spadek warto\u015bci akcji. <\/p><p class=\"wp-block-paragraph\">Teraz dla odmiany Google Gemini <a href=\"https:\/\/www.reuters.com\/technology\/google-ai-chatbot-bard-offers-inaccurate-information-company-ad-2023-02-08\/?fbclid=IwY2xjawFnhplleHRuA2FlbQIxMAABHXm9Oq6OFKpJmLnrOs8z7PGhEJrawfPyKvc8IkVHf8zQ0C-GgyGYJFXTSA_aem_KK1xzn6fhyXy1TFIjyfzKg\" target=\"_blank\" rel=\"noopener\"><mark style=\"background-color:#82D65E\" class=\"has-inline-color has-base-color\"><strong>odmawia odpowiedzi na pytania o polityk\u00f3w<\/strong><\/mark>.<\/a><\/p><p class=\"wp-block-paragraph\"><img loading=\"lazy\" decoding=\"async\" width=\"150\" height=\"27\" class=\"wp-image-5436\" style=\"width: 150px;\" src=\"https:\/\/haimagazine.com\/wp-content\/uploads\/2024\/09\/linia.png\" alt=\"\" srcset=\"https:\/\/haimagazine.com\/wp-content\/uploads\/2024\/09\/linia.png 389w, https:\/\/haimagazine.com\/wp-content\/uploads\/2024\/09\/linia-300x53.png 300w\" sizes=\"auto, (max-width: 150px) 100vw, 150px\" \/><\/p><p class=\"wp-block-paragraph\"><strong>B\u0142\u0119dy logiczne <\/strong>\u2013 znana przypowie\u015b\u0107 o przewo\u017ceniu przez rzek\u0119 kapusty, kozy i wilka dopiero niedawno przesta\u0142a dla modeli j\u0119zykowych by\u0107 problemem. I to chyba dlatego, \u017ce pojawia\u0142a si\u0119 w przyk\u0142adach udowadniaj\u0105cych, \u017ce \u201eLLMy nie potrafi\u0105 wnioskowa\u0107\u201d, trafi\u0142a do odpowiednich zbior\u00f3w treningowych. Ale podobne wnioskowanie w mniej popularnej zagadce nadal dla wielu modeli jest problematyczne. We\u017amy taki przyk\u0142ad:<\/p><p class=\"wp-block-paragraph\"><code>Osiem os\u00f3b A, B, C, D, E, F, G i H siedzi wok\u00f3\u0142 okr\u0105g\u0142ego sto\u0142u zwr\u00f3conych w kierunku \u015brodka (niekoniecznie w tej samej kolejno\u015bci). C siedzi jako drugi po prawej stronie G. E siedzi bezpo\u015brednio po lewej stronie A, kt\u00f3ry stoi naprzeciwko C. D siedzi pomi\u0119dzy A i G, B siedzi jako czwarty po lewej stronie G, kt\u00f3ry siedzi bezpo\u015brednio po lewej stronie H. Kto siedzi jako pi\u0105ty po prawej stronie H?<\/code> <\/p><p class=\"wp-block-paragraph\">Ta zagadka to dla LLM ju\u017c wy\u017csza szko\u0142a jazdy. Zapyta\u0142em kilka modeli i ka\u017cdy dawa\u0142 inn\u0105 odpowied\u017a. I tylko Claude prawid\u0142ow\u0105. <\/p><p class=\"wp-block-paragraph\"><img loading=\"lazy\" decoding=\"async\" width=\"150\" height=\"27\" class=\"wp-image-5436\" style=\"width: 150px;\" src=\"https:\/\/haimagazine.com\/wp-content\/uploads\/2024\/09\/linia.png\" alt=\"\" srcset=\"https:\/\/haimagazine.com\/wp-content\/uploads\/2024\/09\/linia.png 389w, https:\/\/haimagazine.com\/wp-content\/uploads\/2024\/09\/linia-300x53.png 300w\" sizes=\"auto, (max-width: 150px) 100vw, 150px\" \/><\/p><p class=\"wp-block-paragraph\"><strong>Nietrzymanie kontekstu<\/strong> \u2013 czyli mimo korzystania z wstrzykni\u0119cia wiedzy w kontek\u015bcie czy bazie (np. w systemie typu RAG) model i tak \u201ewie lepiej\u201d, i odpowiada albo z wyuczonej wiedzy, albo zmy\u015bla jak czternastolatek przy\u0142apany na paleniu w szkolnej toalecie. To chyba najbardziej irytuj\u0105ce w systemach budowanych dla klient\u00f3w, kt\u00f3rzy chc\u0105 mie\u0107 pewno\u015b\u0107, \u017ce mog\u0105 spokojnie pracowa\u0107 na swoich dokumentach.<\/p><p class=\"wp-block-paragraph\"><img loading=\"lazy\" decoding=\"async\" width=\"150\" height=\"27\" class=\"wp-image-5436\" style=\"width: 150px;\" src=\"https:\/\/haimagazine.com\/wp-content\/uploads\/2024\/09\/linia.png\" alt=\"\" srcset=\"https:\/\/haimagazine.com\/wp-content\/uploads\/2024\/09\/linia.png 389w, https:\/\/haimagazine.com\/wp-content\/uploads\/2024\/09\/linia-300x53.png 300w\" sizes=\"auto, (max-width: 150px) 100vw, 150px\" \/><\/p><p class=\"wp-block-paragraph\">Trafi\u0142em te\u017c na ciekawe b\u0142\u0119dy sprowokowane niepoprawn\u0105 pisowni\u0105, u\u017cyciem nietypowych s\u0142\u00f3w (tzw. out of vocabulary tokens) czy celowymi atakami adwersarialnymi. Polecam zerkn\u0105\u0107 na <a href=\"https:\/\/arxiv.org\/pdf\/2310.01469v2\" data-type=\"link\" data-id=\"https:\/\/arxiv.org\/pdf\/2310.01469v2\" target=\"_blank\" rel=\"noreferrer noopener\"><strong><mark style=\"background-color:#82D65E\" class=\"has-inline-color has-base-color\">interesuj\u0105cy artyku\u0142<\/mark><\/strong><\/a><\/p><p class=\"wp-block-paragraph\"><img loading=\"lazy\" decoding=\"async\" width=\"150\" height=\"27\" class=\"wp-image-5436\" style=\"width: 150px;\" src=\"https:\/\/haimagazine.com\/wp-content\/uploads\/2024\/09\/linia.png\" alt=\"\" srcset=\"https:\/\/haimagazine.com\/wp-content\/uploads\/2024\/09\/linia.png 389w, https:\/\/haimagazine.com\/wp-content\/uploads\/2024\/09\/linia-300x53.png 300w\" sizes=\"auto, (max-width: 150px) 100vw, 150px\" \/><\/p><p class=\"wp-block-paragraph\"><strong>\u201eSubtelne \u201euzupe\u0142nianie\u201d <\/strong>\u2013 czyli prosimy o napisanie fragmentu kodu i wszystko si\u0119 zgadza, poza tym, \u017ce np. pojawia si\u0119 nieistniej\u0105ca metoda w mniej znanej czy nowszej bibliotece. Ten rodzaj b\u0142\u0119d\u00f3w szczeg\u00f3lnie w d\u0142ugich odpowiedziach jest trudny do wychwycenia, bo na pierwszy rzut oka odpowied\u017a wydaje si\u0119 bardzo dobrej jako\u015bci.<\/p><p class=\"wp-block-paragraph\"><img loading=\"lazy\" decoding=\"async\" width=\"150\" height=\"27\" class=\"wp-image-5436\" style=\"width: 150px;\" src=\"https:\/\/haimagazine.com\/wp-content\/uploads\/2024\/09\/linia.png\" alt=\"\" srcset=\"https:\/\/haimagazine.com\/wp-content\/uploads\/2024\/09\/linia.png 389w, https:\/\/haimagazine.com\/wp-content\/uploads\/2024\/09\/linia-300x53.png 300w\" sizes=\"auto, (max-width: 150px) 100vw, 150px\" \/><\/p><p class=\"wp-block-paragraph\"><strong>Dos\u0142owne rozumienie dwuznacznych zwrot\u00f3w,<\/strong> niewy\u0142apanie niuans\u00f3w frazeologicznych, jak np. w stwierdzeniu: \u201eKiedy wzi\u0105\u0142em dane z powietrza, troch\u0119 niekt\u00f3rym \u00ab\u015bmierdzia\u0142y\u00bb\u201d.<\/p><p class=\"wp-block-paragraph\">Zar\u00f3wno Google Gemini, jak i Mixtral-8x7b-32768 zrozumia\u0142y t\u0119 fraz\u0119 ca\u0142kowicie dos\u0142ownie, przedstawiaj\u0105c szereg mo\u017cliwych przyczyn brzydkiego zapachu powietrza.<\/p><figure class=\"wp-block-image size-large is-resized\"><img loading=\"lazy\" decoding=\"async\" width=\"1024\" height=\"885\" src=\"https:\/\/haimagazine.com\/wp-content\/uploads\/2024\/09\/Screenshot-2024-09-30-at-09.47.23-1024x885.png\" alt=\"\" class=\"wp-image-5237\" style=\"width:698px;height:auto\" srcset=\"https:\/\/haimagazine.com\/wp-content\/uploads\/2024\/09\/Screenshot-2024-09-30-at-09.47.23-1024x885.png 1024w, https:\/\/haimagazine.com\/wp-content\/uploads\/2024\/09\/Screenshot-2024-09-30-at-09.47.23-300x259.png 300w, https:\/\/haimagazine.com\/wp-content\/uploads\/2024\/09\/Screenshot-2024-09-30-at-09.47.23-768x664.png 768w, https:\/\/haimagazine.com\/wp-content\/uploads\/2024\/09\/Screenshot-2024-09-30-at-09.47.23-600x519.png 600w, https:\/\/haimagazine.com\/wp-content\/uploads\/2024\/09\/Screenshot-2024-09-30-at-09.47.23.png 1400w\" sizes=\"auto, (max-width: 1024px) 100vw, 1024px\" \/><\/figure><p class=\"wp-block-paragraph\">Claude zn\u00f3w radzi sobie nie\u017ale:<\/p><figure class=\"wp-block-image size-large is-resized\"><img loading=\"lazy\" decoding=\"async\" width=\"1024\" height=\"860\" src=\"https:\/\/haimagazine.com\/wp-content\/uploads\/2024\/09\/Screenshot-2024-09-30-at-09.47.51-1024x860.png\" alt=\"\" class=\"wp-image-5240\" style=\"width:648px;height:auto\" srcset=\"https:\/\/haimagazine.com\/wp-content\/uploads\/2024\/09\/Screenshot-2024-09-30-at-09.47.51-1024x860.png 1024w, https:\/\/haimagazine.com\/wp-content\/uploads\/2024\/09\/Screenshot-2024-09-30-at-09.47.51-300x252.png 300w, https:\/\/haimagazine.com\/wp-content\/uploads\/2024\/09\/Screenshot-2024-09-30-at-09.47.51-768x645.png 768w, https:\/\/haimagazine.com\/wp-content\/uploads\/2024\/09\/Screenshot-2024-09-30-at-09.47.51-1536x1290.png 1536w, https:\/\/haimagazine.com\/wp-content\/uploads\/2024\/09\/Screenshot-2024-09-30-at-09.47.51-600x504.png 600w, https:\/\/haimagazine.com\/wp-content\/uploads\/2024\/09\/Screenshot-2024-09-30-at-09.47.51.png 1586w\" sizes=\"auto, (max-width: 1024px) 100vw, 1024px\" \/><\/figure><h4 class=\"wp-block-heading\"><strong><mark style=\"background-color:rgba(0, 0, 0, 0);color:#f19337\" class=\"has-inline-color\">Sk\u0105d si\u0119 bior\u0105 halucynacje?<\/mark><\/strong><\/h4><p class=\"wp-block-paragraph\">Zanim przejdziemy do pomys\u0142\u00f3w, jak sobie z nimi radzi\u0107, przyjrzyjmy si\u0119, sk\u0105d bior\u0105 si\u0119 halucynacje \/ konfabulacje \u2013 cho\u0107 poni\u017csz\u0105 list\u0119 nale\u017cy potraktowa\u0107 jako wst\u0119pne rozeznanie, bo dynamika rozwoju literatury w tym temacie, cho\u0107by na znanym portalu naukowym arxiv.org, pokazuje, \u017ce to wci\u0105\u017c bardzo rozwojowy temat.<\/p><p class=\"wp-block-paragraph\"><img loading=\"lazy\" decoding=\"async\" width=\"150\" height=\"27\" class=\"wp-image-5436\" style=\"width: 150px;\" src=\"https:\/\/haimagazine.com\/wp-content\/uploads\/2024\/09\/linia.png\" alt=\"\" srcset=\"https:\/\/haimagazine.com\/wp-content\/uploads\/2024\/09\/linia.png 389w, https:\/\/haimagazine.com\/wp-content\/uploads\/2024\/09\/linia-300x53.png 300w\" sizes=\"auto, (max-width: 150px) 100vw, 150px\" \/><\/p><p class=\"wp-block-paragraph\"><strong>B\u0142\u0119dy \/ nie\u015bcis\u0142o\u015bci \/ wzajemnie si\u0119 wykluczaj\u0105ce fakty w danych treningowych<\/strong> \u2013 je\u015bli w danych treningowych mamy jedn\u0105 dat\u0119 czyjego\u015b urodzenia, a w innym miejscu inn\u0105 \u2013 bo np. s\u0105 co do tego w\u0105tpliwo\u015bci albo informacje te pochodz\u0105 z niezweryfikowanych \u017ar\u00f3de\u0142, np. komentarzy na portalach typu Reddit, LLM mo\u017ce, generuj\u0105c odpowied\u017a, si\u0119ga\u0107 raz po jedn\u0105 wersj\u0119, raz drug\u0105. W danych treningowych mog\u0105 te\u017c trafia\u0107 si\u0119 informacje pobrane ze stron zawieraj\u0105cych rozmaite teorie spiskowe, m\u0105dro\u015bci antyszczepionkowe, dowody p\u0142askoziemc\u00f3w czy polityczn\u0105 propagand\u0119 op\u0142acon\u0105 przez wschodniego s\u0105siada. Wszystko to wp\u0142ywa na to, co \u201emodel wie\u201d (czyli ma w swoim grafie wiedzy). Dlatego bardzo du\u017co pracy wk\u0142ada si\u0119 w czyszczenie ju\u017c istniej\u0105cych zbior\u00f3w danych, a nie tylko ich dalsze rozbudowywanie (o zbiorach danych dla j\u0119zyka polskiego pisze w tym numerze Aleksandra Tomaszewska).<\/p><p class=\"wp-block-paragraph\"><img loading=\"lazy\" decoding=\"async\" width=\"150\" height=\"27\" class=\"wp-image-5436\" style=\"width: 150px;\" src=\"https:\/\/haimagazine.com\/wp-content\/uploads\/2024\/09\/linia.png\" alt=\"\" srcset=\"https:\/\/haimagazine.com\/wp-content\/uploads\/2024\/09\/linia.png 389w, https:\/\/haimagazine.com\/wp-content\/uploads\/2024\/09\/linia-300x53.png 300w\" sizes=\"auto, (max-width: 150px) 100vw, 150px\" \/><\/p><p class=\"wp-block-paragraph\"><strong>Braki w danych treningowych <\/strong>\u2013 samodzielny model LLM nie mo\u017ce korzysta\u0107 z internetu, a jego dane treningowe mog\u0105 by\u0107 ograniczone do skanu sieci np. do 2021 roku (tak by\u0142o z wcze\u015bniejszymi modelami GPT) i w zwi\u0105zku z tym nie posiada wystarczaj\u0105cego kontekstu np. na temat ataku Izraela na stref\u0119 Gazy czy wojny w Ukrainie. Oczywi\u015bcie firmy AI bardzo pilnuj\u0105, aby wa\u017ckie tematy by\u0142y na bie\u017c\u0105co dodawane i merytorycznie wspierane (jak by\u0142o np. po \u015bmierci kr\u00f3lowej El\u017cbiety), poniewa\u017c ewentualna wpadka czy absurdalna i niepoprawna politycznie odpowied\u017a mo\u017ce bardzo zaszkodzi\u0107 wizerunkowi dostawcy takiego modelu. Ale taki ewentualny brak okre\u015blonych informacji, je\u015bli nie jest obs\u0142u\u017cony przez szczerze przyznanie \u201enie wiem\u201d, a modele bardzo rzadko si\u0119 do tego przyznaj\u0105, to bywa wyzwalaczem halucynacji, bo w\u00f3wczas model pr\u00f3buje za wszelk\u0105 cen\u0119, nawet mimo braku wiedzy, wygenerowa\u0107 odpowied\u017a na zadane pytanie. W tej kategorii mamy te\u017c podkategori\u0119 wynikaj\u0105c\u0105 z braku okre\u015blonych danych treningowych, czyli braku znajomo\u015bci niuans\u00f3w danego j\u0119zyka. Ka\u017cdy j\u0119zyk posiada unikatowe idiomy, frazeologizmy, utarte metafory czy odniesienia historyczne, kt\u00f3re rozumiesz zupe\u0142nie inaczej, ni\u017c czytaj\u0105c te wyrazy dos\u0142ownie. Na\u0142\u00f3\u017cmy na to popkultur\u0119, wszelakie slangi, sarkazm i j\u0119zykowe chwyty artystyczne stosowane w tekstach literackich, marketingowych czy piosenek i otrzymamy zdania, kt\u00f3re cz\u0119sto nawet dla cz\u0142owieka osadzonego kulturowo w okre\u015blonym \u015bwiecie mog\u0105 okaza\u0107 si\u0119 niejasne lub co najmniej dwuznaczne. Je\u015bli w naszym zapytaniu pojawiaj\u0105 si\u0119 takie j\u0119zykowe zabiegi, jest r\u00f3wnie\u017c spora szansa, \u017ce model \u201enie zrozumie\u201d, o co nam chodzi\u0142o, i potraktuje nasz\u0105 odpowied\u017a dos\u0142ownie i jednocze\u015bnie kul\u0105 w p\u0142ot. Podobnie jak w przyk\u0142adzie o \u201edanych z powietrza\u201d wspomnianych powy\u017cej.<\/p><p class=\"wp-block-paragraph\"><img loading=\"lazy\" decoding=\"async\" width=\"150\" height=\"27\" class=\"wp-image-5436\" style=\"width: 150px;\" src=\"https:\/\/haimagazine.com\/wp-content\/uploads\/2024\/09\/linia.png\" alt=\"\" srcset=\"https:\/\/haimagazine.com\/wp-content\/uploads\/2024\/09\/linia.png 389w, https:\/\/haimagazine.com\/wp-content\/uploads\/2024\/09\/linia-300x53.png 300w\" sizes=\"auto, (max-width: 150px) 100vw, 150px\" \/><\/p><p class=\"wp-block-paragraph\"><strong>Sprzeczne dane wej\u015bciowe<\/strong> \u2013 je\u015bli Tw\u00f3j tekst pobrany w systemie RAG (Retrieval Augmented Generation, bazodanowy system wspieraj\u0105cy generowanie rzetelniejszych odpowiedzi, szerzej opisany w nr 1 \u201ehAI Magazine\u201d) zwraca zaprzeczaj\u0105ce sobie informacje, sprzeczne tezy lub fakty \u2013 r\u00f3wnie\u017c wp\u0142ynie to na jako\u015b\u0107 odpowiedzi. Szczeg\u00f3lnie je\u015bli s\u0105 one inne ni\u017c te u\u017cywane w treningu, a prompt nie precyzuje, kt\u00f3rych z nich nale\u017cy u\u017cy\u0107. Zapytanie typu: Kr\u00f3l Henryk umar\u0142 23 kwietnia 2023 roku. Wed\u0142ug historyk\u00f3w kr\u00f3l Henryk zako\u0144czy\u0142 sw\u00f3j \u017cywot 24 lipca 2024 roku. Powiedz, od kiedy nie \u017cyje kr\u00f3l Henryk, jeszcze w poprzedniej generacji modeli powodowa\u0142o takie w\u0142a\u015bnie \u201ekreatywne\u201d odpowiedzi.<\/p><figure class=\"wp-block-image size-large\"><img loading=\"lazy\" decoding=\"async\" width=\"1024\" height=\"614\" src=\"https:\/\/haimagazine.com\/wp-content\/uploads\/2024\/09\/Untitled-4-1024x614.jpg\" alt=\"\" class=\"wp-image-5242\" srcset=\"https:\/\/haimagazine.com\/wp-content\/uploads\/2024\/09\/Untitled-4-1024x614.jpg 1024w, https:\/\/haimagazine.com\/wp-content\/uploads\/2024\/09\/Untitled-4-300x180.jpg 300w, https:\/\/haimagazine.com\/wp-content\/uploads\/2024\/09\/Untitled-4-768x461.jpg 768w, https:\/\/haimagazine.com\/wp-content\/uploads\/2024\/09\/Untitled-4-600x360.jpg 600w, https:\/\/haimagazine.com\/wp-content\/uploads\/2024\/09\/Untitled-4.jpg 1472w\" sizes=\"auto, (max-width: 1024px) 100vw, 1024px\" \/><\/figure><p class=\"wp-block-paragraph\"><img loading=\"lazy\" decoding=\"async\" width=\"150\" height=\"27\" class=\"wp-image-5436\" style=\"width: 150px;\" src=\"https:\/\/haimagazine.com\/wp-content\/uploads\/2024\/09\/linia.png\" alt=\"\" srcset=\"https:\/\/haimagazine.com\/wp-content\/uploads\/2024\/09\/linia.png 389w, https:\/\/haimagazine.com\/wp-content\/uploads\/2024\/09\/linia-300x53.png 300w\" sizes=\"auto, (max-width: 150px) 100vw, 150px\" \/><\/p><p class=\"wp-block-paragraph\"><strong>Niew\u0142a\u015bciwe dane wej\u015bciowe<\/strong> \u2013 \u0142atwo pokaza\u0107, \u017ce taki system RAG dzia\u0142a poprawnie, je\u015bli testujemy go na jednym, wzgl\u0119dnie prostym dokumencie i zadajemy pytania tylko w obr\u0119bie jego tre\u015bci. A co, je\u015bli masz 10 tysi\u0119cy dokument\u00f3w i najpierw wyszukujesz w\u0142a\u015bciwe fragmenty do zbudowania promptu? Je\u015bli twoje wyszukiwanie wyci\u0105ga z jakiej\u015b bazy b\u0142\u0119dne fragmenty tekstu, LLM b\u0119dzie ograniczony do odpowiedzi z tych w\u0142a\u015bnie \u201echunk\u00f3w\u201d. Co oznacza, \u017ce wiedza na temat tego, jak wycisn\u0105\u0107 najwy\u017csz\u0105 dok\u0142adno\u015b\u0107 zapyta\u0144 kontekstowych z (najpewniej) Elastic Searcha (typowe narz\u0119dzie do wyszukiwania), mo\u017ce mie\u0107 spore znaczenie dla tego, czy Tw\u00f3j asystent odpowiada prawid\u0142owo.<\/p><p class=\"wp-block-paragraph\"><img loading=\"lazy\" decoding=\"async\" width=\"150\" height=\"27\" class=\"wp-image-5436\" style=\"width: 150px;\" src=\"https:\/\/haimagazine.com\/wp-content\/uploads\/2024\/09\/linia.png\" alt=\"\" srcset=\"https:\/\/haimagazine.com\/wp-content\/uploads\/2024\/09\/linia.png 389w, https:\/\/haimagazine.com\/wp-content\/uploads\/2024\/09\/linia-300x53.png 300w\" sizes=\"auto, (max-width: 150px) 100vw, 150px\" \/><\/p><p class=\"wp-block-paragraph\"><strong>Nadmierne \u201ezmanipulowanie\u201d Twoim promptem<\/strong> \u2013 by\u0107 mo\u017ce zauwa\u017cysz, \u017ce je\u015bli zadane pytanie sugeruje potencjaln\u0105 odpowied\u017a, model czasem ca\u0142kowicie \u201ewykrzywia\u201d prawd\u0119, bo przychyla si\u0119 do Twojej instrukcji. I tutaj w sumie wida\u0107, \u017ce niekt\u00f3re modele s\u0105 bardziej stabilne, inne \u0142atwiej \u201ewygi\u0105\u0107\u201d, zmanipulowa\u0107. Tak naprawd\u0119 obie opcje s\u0105 przydatne, zale\u017cy do czego akurat w\u0142a\u015bnie takiego modelu u\u017cywasz (je\u015bli piszesz powie\u015b\u0107 albo opowiadania \u2013 elastyczniejszy model bardziej si\u0119 przyda, je\u015bli za\u015b pr\u00f3bujesz trzyma\u0107 si\u0119 fakt\u00f3w, to troch\u0119 gorzej). W takiej sytuacji model zamiast odpowiedzie\u0107 \u201enie wiem\u201d lub \u201enie ma czego\u015b takiego\u201d na pro\u015bb\u0119: \u201eOpowiedz o mi\u0119kkim \u017c\u00f3\u0142tym owocu rosn\u0105cym na Antarktydzie\u201d \u2013 pr\u00f3buje zgadn\u0105\u0107, o co mo\u017ce Ci chodzi\u0107. Czasem ten prompt robi to znacznie subtelniej \u2013 zapyta\u0142em niedawno modele o polski samoch\u00f3d Izera. Niekt\u00f3re LLM-y twierdzi\u0142y, \u017ce fabryki zatrudniaj\u0105 tysi\u0105ce ludzi, a miliony samochod\u00f3w tej marki je\u017cd\u017c\u0105 ju\u017c po Europie, cho\u0107 to wci\u0105\u017c jedynie szeroko zakrojona wizja, a nie \u017cywy produkt. Niekt\u00f3rzy nazywaj\u0105 to brakiem kwestionowania za\u0142o\u017ce\u0144 przez AI, inni fantazj\u0105 by\u0142ego premiera (cho\u0107 osobi\u015bcie trzymam naprawd\u0119 kciuki, \u017ceby ten projekt wypali\u0142).<\/p><p class=\"wp-block-paragraph\"><img loading=\"lazy\" decoding=\"async\" width=\"150\" height=\"27\" class=\"wp-image-5436\" style=\"width: 150px;\" src=\"https:\/\/haimagazine.com\/wp-content\/uploads\/2024\/09\/linia.png\" alt=\"\" srcset=\"https:\/\/haimagazine.com\/wp-content\/uploads\/2024\/09\/linia.png 389w, https:\/\/haimagazine.com\/wp-content\/uploads\/2024\/09\/linia-300x53.png 300w\" sizes=\"auto, (max-width: 150px) 100vw, 150px\" \/><\/p><p class=\"wp-block-paragraph\"><strong>Ograniczenia w procesowaniu ca\u0142ego okna kontekstowego<\/strong> &#8211; nie ka\u017cdy LLM traktuje ca\u0142o\u015b\u0107 kontekstu tak samo. S\u0105 modele, kt\u00f3re zdecydowanie preferuj\u0105 informacje zawarte na pocz\u0105tku okna kontekstowego, inne faworyzuj\u0105 pocz\u0105tek i koniec, jeszcze inne potrafi\u0105 precyzyjnie przetworzy\u0107 ca\u0142o\u015b\u0107. W zale\u017cno\u015bci od tego, jak zachowuje si\u0119 model, z kt\u00f3rego korzystasz, i jak du\u017co informacji wysy\u0142asz w pojedynczym zapytaniu, tak mo\u017ce zmienia\u0107 si\u0119 precyzja odpowiedzi.<\/p><p class=\"wp-block-paragraph\">Wi\u0119cej na ten temat w publikacji:<em> <a href=\"https:\/\/arxiv.org\/pdf\/2307.03172\" data-type=\"link\" data-id=\"https:\/\/arxiv.org\/pdf\/2307.03172\" target=\"_blank\" rel=\"noopener\"><strong><mark style=\"background-color:#82D65E\" class=\"has-inline-color has-base-color\">L<\/mark><\/strong><\/a><\/em><a href=\"https:\/\/arxiv.org\/pdf\/2307.03172\" data-type=\"link\" data-id=\"https:\/\/arxiv.org\/pdf\/2307.03172\" target=\"_blank\" rel=\"noopener\"><em><strong><mark style=\"background-color:#82D65E\" class=\"has-inline-color has-base-color\">ost in the Middle: How Language Models Use Long Contexts<\/mark><\/strong>.<\/em><\/a><\/p><figure class=\"wp-block-image size-large\"><img loading=\"lazy\" decoding=\"async\" width=\"635\" height=\"1024\" src=\"https:\/\/haimagazine.com\/wp-content\/uploads\/2024\/09\/Screenshot_20from_202024-06-02_2010-40-22-635x1024.jpg\" alt=\"\" class=\"wp-image-5244\" srcset=\"https:\/\/haimagazine.com\/wp-content\/uploads\/2024\/09\/Screenshot_20from_202024-06-02_2010-40-22-635x1024.jpg 635w, https:\/\/haimagazine.com\/wp-content\/uploads\/2024\/09\/Screenshot_20from_202024-06-02_2010-40-22-186x300.jpg 186w, https:\/\/haimagazine.com\/wp-content\/uploads\/2024\/09\/Screenshot_20from_202024-06-02_2010-40-22-600x968.jpg 600w, https:\/\/haimagazine.com\/wp-content\/uploads\/2024\/09\/Screenshot_20from_202024-06-02_2010-40-22.jpg 697w\" sizes=\"auto, (max-width: 635px) 100vw, 635px\" \/><\/figure><p class=\"wp-block-paragraph\">Im wi\u0119kszy model, tym cz\u0119sto lepiej sobie radzi z du\u017cym oknem (d\u0142ugim tekstem), ale r\u00f3wnie\u017c Tw\u00f3j prompt wp\u0142ywa na to, czy model poprawnie wydob\u0119dzie informacje z ca\u0142ego okna kontekstowego.<\/p><p class=\"wp-block-paragraph\">Publikacja:<a href=\"https:\/\/arxiv.org\/pdf\/2404.08865v1\" target=\"_blank\" rel=\"noopener\"> <strong><mark style=\"background-color:#82D65E\" class=\"has-inline-color has-base-color\"><em>LLM In-Context Recall is Prompt Dependent.<\/em><\/mark><\/strong><\/a><\/p><p class=\"wp-block-paragraph\"><img loading=\"lazy\" decoding=\"async\" width=\"150\" height=\"27\" class=\"wp-image-5436\" style=\"width: 150px;\" src=\"https:\/\/haimagazine.com\/wp-content\/uploads\/2024\/09\/linia.png\" alt=\"\" srcset=\"https:\/\/haimagazine.com\/wp-content\/uploads\/2024\/09\/linia.png 389w, https:\/\/haimagazine.com\/wp-content\/uploads\/2024\/09\/linia-300x53.png 300w\" sizes=\"auto, (max-width: 150px) 100vw, 150px\" \/><\/p><p class=\"wp-block-paragraph\"><strong>Uzupe\u0142nianie istniej\u0105cej wiedzy<\/strong>. Ta sytuacja wyj\u0105tkowo g\u0142o\u015bno by\u0142a komentowana w \u015bwiecie prawnik\u00f3w, gdzie prawnik korzysta\u0142 z ChatGPT bez weryfikacji odpowiedzi. Model zna\u0142 kodeks i wiedzia\u0142, \u017ce trzeba wybra\u0107 okre\u015blone zapisy prawne i zgodnie z zasadami panuj\u0105cymi w USA znale\u017a\u0107 korzystne wyroki zas\u0105dzone w podobnych sprawach. Nie mia\u0142 takich spraw w swoich danych treningowych, wi\u0119c<a href=\"https:\/\/www.forbes.com\/sites\/mollybohannon\/2023\/06\/08\/lawyer-used-chatgpt-in-court-and-cited-fake-cases-a-judge-is-considering-sanctions\/\" target=\"_blank\" rel=\"noreferrer noopener\"> <\/a><mark style=\"background-color:#82D65E\" class=\"has-inline-color has-base-color\"><strong><a href=\"https:\/\/www.forbes.com\/sites\/mollybohannon\/2023\/06\/08\/lawyer-used-chatgpt-in-court-and-cited-fake-cases-a-judge-is-considering-sanctions\/\" target=\"_blank\" rel=\"noreferrer noopener\">\u201euzupe\u0142ni\u0142\u201d je fikcyjnymi zapisami<\/a>.<\/strong><\/mark> To podobna sytuacja do uzupe\u0142niania kodu nieistniej\u0105cymi bibliotekami, o kt\u00f3rej wspominam wy\u017cej, czy podawania nawi\u0105za\u0144 do artyku\u0142\u00f3w naukowych, kt\u00f3rych nigdy nie napisano.<\/p><p class=\"wp-block-paragraph\"><img loading=\"lazy\" decoding=\"async\" width=\"150\" height=\"27\" class=\"wp-image-5436\" style=\"width: 150px;\" src=\"https:\/\/haimagazine.com\/wp-content\/uploads\/2024\/09\/linia.png\" alt=\"\" srcset=\"https:\/\/haimagazine.com\/wp-content\/uploads\/2024\/09\/linia.png 389w, https:\/\/haimagazine.com\/wp-content\/uploads\/2024\/09\/linia-300x53.png 300w\" sizes=\"auto, (max-width: 150px) 100vw, 150px\" \/><\/p><p class=\"wp-block-paragraph\"><strong>Overfitting \/ Underfitting<\/strong>. Ta hipoteza przewija si\u0119 w r\u00f3\u017cnych tekstach na temat LLM-\u00f3w, ale nikt nie cytuje \u017cadnego \u017ar\u00f3d\u0142a, kt\u00f3re to w jakikolwiek spos\u00f3b zweryfikowa\u0142o. Idea jest taka: je\u015bli model \u201ezapami\u0119ta\u201d zbyt mocno okre\u015blone dane treningowe, to b\u0119dzie je silniej powtarza\u0107 w odpowiedziach, mimo \u017ce oczekujemy od niego zupe\u0142nie innej odpowiedzi. Podobnie ma by\u0107 z niedouczeniem modelu \u2013 wtedy te\u017c b\u0119dziemy otrzymywa\u0107 troch\u0119 przypadkowe odpowiedzi, w my\u015bl zasady, \u017ceby generowa\u0107 pomys\u0142 za wszelk\u0105 cen\u0119, nawet je\u015bli nie ma wystarczaj\u0105cej wiedzy. Nie trafi\u0142em na publikacj\u0119, kt\u00f3ra w czytelny spos\u00f3b dowodzi, \u017ce rzeczywi\u015bcie tak jest. Brzmi to jednak co najmniej wiarygodnie, je\u015bli mamy z ty\u0142u g\u0142owy analogi\u0119 do zachowa\u0144 modelu o du\u017cej dysproporcji wielko\u015bci klas (imbalanced dataset).<\/p><p class=\"wp-block-paragraph\"><img loading=\"lazy\" decoding=\"async\" width=\"150\" height=\"27\" class=\"wp-image-5436\" style=\"width: 150px;\" src=\"https:\/\/haimagazine.com\/wp-content\/uploads\/2024\/09\/linia.png\" alt=\"\" srcset=\"https:\/\/haimagazine.com\/wp-content\/uploads\/2024\/09\/linia.png 389w, https:\/\/haimagazine.com\/wp-content\/uploads\/2024\/09\/linia-300x53.png 300w\" sizes=\"auto, (max-width: 150px) 100vw, 150px\" \/><\/p><p class=\"wp-block-paragraph\"><strong>Obliczenia, daty, wnioskowanie, rozumowanie logiczne<\/strong>. Niekt\u00f3re samodzielne modele LLM maj\u0105 k\u0142opoty z poprawnymi obliczeniami, interpretowaniem osi czasu czy rozumowaniem sekwencyjnym. Asystenci LLM cz\u0119sto wspomagaj\u0105 si\u0119 dodatkowymi warstwami (asystentami), kt\u00f3re przekazuj\u0105 zadania matematyczne do wygenerowanego odpowiednio fragmentu wykonywalnego kodu np. w j\u0119zyku Python, by w odpowiedzi zwr\u00f3ci\u0107 wynik dzia\u0142ania tego pobocznego algorytmu. Takie zachowanie bywa widoczne w przypadku ChatGPT i przetwarzania tabel z liczbami czy rysowania wykres\u00f3w \u2013 po stronie interfejsu u\u017cytkownika widzimy jedynie pulsuj\u0105cy komunikat o tym, \u017ce trwa analiza, ale wystarczy wej\u015b\u0107 w \u201eszczeg\u00f3\u0142y\u201d, \u017ceby zobaczy\u0107 wygenerowany kod w Pythonie. Natomiast modele, kt\u00f3re pr\u00f3buj\u0105 to zrobi\u0107 jedynie na poziomie j\u0119zykowym, ale w ich instrukcjach ucz\u0105cych nie by\u0142o odpowiednich przyk\u0142ad\u00f3w, s\u0105 najbardziej nara\u017cone na zwracanie zmy\u015blonych warto\u015bci.<\/p><p class=\"wp-block-paragraph\">Poni\u017cszy przyk\u0142ad przedstawia wynik przetwarzania tabeli dotycz\u0105cej warto\u015bci inflacji, pochodz\u0105cej ze strony GUS-u, gdzie dok\u0142adnie wida\u0107, \u017ce z naszego zapytania zosta\u0142y poprawnie wyekstrahowane sk\u0142adowe i wkomponowane w odpowiednie funkcje w wykonywalnym kodzie.<\/p><figure class=\"wp-block-image size-large is-resized\"><img loading=\"lazy\" decoding=\"async\" width=\"1024\" height=\"968\" src=\"https:\/\/haimagazine.com\/wp-content\/uploads\/2024\/09\/Screenshot_20from_202024-07-13_2009-27-36-1024x968.jpg\" alt=\"\" class=\"wp-image-5246\" style=\"width:1075px;height:auto\" srcset=\"https:\/\/haimagazine.com\/wp-content\/uploads\/2024\/09\/Screenshot_20from_202024-07-13_2009-27-36-1024x968.jpg 1024w, https:\/\/haimagazine.com\/wp-content\/uploads\/2024\/09\/Screenshot_20from_202024-07-13_2009-27-36-300x284.jpg 300w, https:\/\/haimagazine.com\/wp-content\/uploads\/2024\/09\/Screenshot_20from_202024-07-13_2009-27-36-768x726.jpg 768w, https:\/\/haimagazine.com\/wp-content\/uploads\/2024\/09\/Screenshot_20from_202024-07-13_2009-27-36-600x567.jpg 600w, https:\/\/haimagazine.com\/wp-content\/uploads\/2024\/09\/Screenshot_20from_202024-07-13_2009-27-36.jpg 1179w\" sizes=\"auto, (max-width: 1024px) 100vw, 1024px\" \/><\/figure><p class=\"wp-block-paragraph\"><\/p><h4 class=\"wp-block-heading\"><strong><mark style=\"background-color:rgba(0, 0, 0, 0);color:#f19337\" class=\"has-inline-color\">Zapobieganie halucynacjom<\/mark><\/strong><\/h4><h4 class=\"wp-block-heading\"><strong><mark style=\"background-color:rgba(0, 0, 0, 0);color:#f19337\" class=\"has-inline-color\">1) po stronie u\u017cytkownika LLM-\u00f3w<\/mark><\/strong><\/h4><p class=\"wp-block-paragraph\"><img loading=\"lazy\" decoding=\"async\" width=\"150\" height=\"27\" class=\"wp-image-5436\" style=\"width: 150px;\" src=\"https:\/\/haimagazine.com\/wp-content\/uploads\/2024\/09\/linia.png\" alt=\"\" srcset=\"https:\/\/haimagazine.com\/wp-content\/uploads\/2024\/09\/linia.png 389w, https:\/\/haimagazine.com\/wp-content\/uploads\/2024\/09\/linia-300x53.png 300w\" sizes=\"auto, (max-width: 150px) 100vw, 150px\" \/><\/p><p class=\"wp-block-paragraph\"><strong>Korzystanie z RAG<\/strong><\/p><p class=\"wp-block-paragraph\">Najcz\u0119stszym sposobem na zwi\u0119kszenie kontroli nad tre\u015bci\u0105 generowanych odpowiedzi jest wykorzystanie wspomnianych ju\u017c wy\u017cej system\u00f3w RAG, czyli wyszukiwanie odpowiednich fragment\u00f3w z bazy wiedzy i dodawanie ich do kontekstu zapytania w celu wygenerowania lepszej odpowiedzi. Przypomnijmy, \u017ce ten skr\u00f3t oznacza Retrieval Augmented Generation, czyli generowanie wspomagane wydobywaniem wiedzy. I tutaj na jako\u015b\u0107 odpowiedzi bardzo du\u017cy wp\u0142yw b\u0119dzie mia\u0142a jako\u015b\u0107 wynik\u00f3w tego pierwszego zadania, czyli w\u0142a\u015bnie odpowiedniego zlokalizowania istotnych element\u00f3w w dost\u0119pnych dokumentach, kt\u00f3re odnosz\u0105 si\u0119 najlepiej do zadanego pytania czy wskazanego zadania.<\/p><p class=\"wp-block-paragraph\">W praktyce oznacza to najcz\u0119\u015bciej trafno\u015b\u0107 wyci\u0105gania z bazy, wyszukiwarki typu Elastic Search czy innego miejsca, w kt\u00f3rym przechowujemy dane. Jest to szczeg\u00f3lnie wa\u017cne, gdy mamy do przeszukania dwa prawie identyczne fragmenty tekstu, zawieraj\u0105ce jednak zupe\u0142nie inne kwoty pieni\u0119\u017cne. Mo\u017cemy si\u0119 spodziewa\u0107 losowego u\u017cycia jednego z nich, chyba \u017ce wcze\u015bniej zadzia\u0142a mechanizm tworzenia odpowiedniego rankingu tych fragment\u00f3w tekstu i odrzucenia niew\u0142a\u015bciwych \u2013 np. poprzez u\u017cycie g\u0142\u0119bokiej sieci typu cross-encoder. Ten dodatkowy krok re-rankingu fragment\u00f3w tekstu (ustawianie kolejno\u015bci fragment\u00f3w tekstu poprzez wybieranie najbli\u017cszych do zapytania) pod k\u0105tem przydatno\u015bci do generacji odpowiedzi r\u00f3wnie\u017c pomaga zmniejsza\u0107 \u201eszum\u201d, jaki wysy\u0142any jest do LLM i tym samym pozwala na otrzymywanie lepszych odpowiedzi.<\/p><p class=\"wp-block-paragraph\"><img loading=\"lazy\" decoding=\"async\" width=\"150\" height=\"27\" class=\"wp-image-5436\" style=\"width: 150px;\" src=\"https:\/\/haimagazine.com\/wp-content\/uploads\/2024\/09\/linia.png\" alt=\"\" srcset=\"https:\/\/haimagazine.com\/wp-content\/uploads\/2024\/09\/linia.png 389w, https:\/\/haimagazine.com\/wp-content\/uploads\/2024\/09\/linia-300x53.png 300w\" sizes=\"auto, (max-width: 150px) 100vw, 150px\" \/><\/p><p class=\"wp-block-paragraph\"><strong>Parametry LLM<\/strong><\/p><p class=\"wp-block-paragraph\">Obni\u017cenie parametru \u201etemperatury\u201d zmniejszy kreatywno\u015b\u0107 modelu, ale tym samym wp\u0142ynie na mniejsz\u0105 liczb\u0119 halucynacji. Niekt\u00f3re modele pozwalaj\u0105 r\u00f3wnie\u017c na ustawienie parametr\u00f3w Top-K i Top-P, kt\u00f3rych ni\u017csze warto\u015bci daj\u0105 mniej losowe odpowiedzi (mniej kreatywno\u015bci w teorii oznacza ma mniej halucynacji). Niestety nasze testy nie wykazywa\u0142y zbyt wielkiego wp\u0142ywu tych parametr\u00f3w (Top-K, Top-P) na jako\u015b\u0107 odpowiedzi, przynajmniej w pracy z modelami sprzed kilku miesi\u0119cy.<\/p><p class=\"wp-block-paragraph\"><img loading=\"lazy\" decoding=\"async\" width=\"150\" height=\"27\" class=\"wp-image-5436\" style=\"width: 150px;\" src=\"https:\/\/haimagazine.com\/wp-content\/uploads\/2024\/09\/linia.png\" alt=\"\" srcset=\"https:\/\/haimagazine.com\/wp-content\/uploads\/2024\/09\/linia.png 389w, https:\/\/haimagazine.com\/wp-content\/uploads\/2024\/09\/linia-300x53.png 300w\" sizes=\"auto, (max-width: 150px) 100vw, 150px\" \/><\/p><p class=\"wp-block-paragraph\"><strong>Przy u\u017cyciu prompt\u00f3w<\/strong><\/p><p class=\"wp-block-paragraph\">Kolejn\u0105 lini\u0105 obrony przed halucynacjami s\u0105 odpowiednie linijki promptu, kt\u00f3ry poinstruuje model, \u017ceby \u201etwardo st\u0105pa\u0142 po ziemi\u201d. Tutaj du\u017co zale\u017cy od tego, czy koncentrujemy si\u0119 na jednej dziedzinie, czy prompt ma by\u0107 bardziej og\u00f3lny i umo\u017cliwia\u0107 prac\u0119 z szerokim typem dokument\u00f3w o r\u00f3\u017cnej tematyce, np. wprowadzanych przez klient\u00f3w z r\u00f3\u017cnych bran\u017c. <\/p><p class=\"wp-block-paragraph\">Popularne linijki maj\u0105ce poprawi\u0107 jako\u015b\u0107 odpowiedzi to m.in.:<\/p><figure class=\"wp-block-image size-large\"><img loading=\"lazy\" decoding=\"async\" width=\"574\" height=\"1024\" src=\"https:\/\/haimagazine.com\/wp-content\/uploads\/2024\/09\/Screenshot-2024-09-30-at-09.51.15-574x1024.png\" alt=\"\" class=\"wp-image-5248\" srcset=\"https:\/\/haimagazine.com\/wp-content\/uploads\/2024\/09\/Screenshot-2024-09-30-at-09.51.15-574x1024.png 574w, https:\/\/haimagazine.com\/wp-content\/uploads\/2024\/09\/Screenshot-2024-09-30-at-09.51.15-168x300.png 168w, https:\/\/haimagazine.com\/wp-content\/uploads\/2024\/09\/Screenshot-2024-09-30-at-09.51.15-768x1370.png 768w, https:\/\/haimagazine.com\/wp-content\/uploads\/2024\/09\/Screenshot-2024-09-30-at-09.51.15-600x1070.png 600w, https:\/\/haimagazine.com\/wp-content\/uploads\/2024\/09\/Screenshot-2024-09-30-at-09.51.15.png 860w\" sizes=\"auto, (max-width: 574px) 100vw, 574px\" \/><\/figure><p class=\"wp-block-paragraph\">Jak zawsze \u2013 warto sprawdzi\u0107, kt\u00f3ry model reaguje lepiej lub bardziej trzyma si\u0119 podanych przez Ciebie instrukcji. Mo\u017ce r\u00f3wnie\u017c okaza\u0107 si\u0119, \u017ce w Twoim konkretnym przypadku jako\u015b\u0107 poprawi dopiero u\u017cycie wielu metod jednocze\u015bnie. Czasem prosta zmiana 2\u20133 synonim\u00f3w w takiej instrukcji r\u00f3wnie\u017c powoduje popraw\u0119 odpowiedzi. W promptach mo\u017cna r\u00f3wnie\u017c u\u017cywa\u0107 takich drobnych wskaz\u00f3wek jak \u201eprecyzyjnie\u201d, \u201esp\u00f3jnie\u201d, \u201eb\u0105d\u017a ostro\u017cny\u201d, \u201e\u015bci\u015ble\u201d, \u201ekrytycznie\u201d, \u201eweryfikuj\u201d, \u201efakty\u201d, sugeruj\u0105c modelowi mocniejsze przywi\u0105zanie do fakt\u00f3w i narzucaj\u0105c mniejsz\u0105 kreatywno\u015b\u0107 przy tworzeniu odpowiedzi.<\/p><h4 class=\"wp-block-heading\"><strong><mark style=\"background-color:rgba(0, 0, 0, 0);color:#f19337\" class=\"has-inline-color\">2) Zaawansowane techniki u\u017cywane w trakcie pracy nad LLM-ami (trening)<\/mark><\/strong><\/h4><p class=\"wp-block-paragraph\"><img loading=\"lazy\" decoding=\"async\" width=\"150\" height=\"27\" class=\"wp-image-5436\" style=\"width: 150px;\" src=\"https:\/\/haimagazine.com\/wp-content\/uploads\/2024\/09\/linia.png\" alt=\"\" srcset=\"https:\/\/haimagazine.com\/wp-content\/uploads\/2024\/09\/linia.png 389w, https:\/\/haimagazine.com\/wp-content\/uploads\/2024\/09\/linia-300x53.png 300w\" sizes=\"auto, (max-width: 150px) 100vw, 150px\" \/><\/p><p class=\"wp-block-paragraph\"><strong>DPO \u2013 Direct Preference Optimization<\/strong><br>Alternatywa dla szeroko wykorzystywanej do tej pory metody reinforcement learning from human feedback (RLHF), czyli uczenie ze wzmocnieniem, gdzie oceniaj\u0105cymi s\u0105 ludzie. Szerzej opisana w pracy <a href=\"https:\/\/arxiv.org\/abs\/2305.18290?fbclid=IwY2xjawFngqBleHRuA2FlbQIxMAABHWhRvGtW-4rGzzScTY67ik_B8OEs6eP2M7-UtNfv4bRFvWXPiad_MqSGWA_aem_I2i0vlZ3K5YJ8aZDraOm1w\" target=\"_blank\" rel=\"noopener\"><mark style=\"background-color:#82D65E\" class=\"has-inline-color has-base-color\"><strong><em>Direct Preference Optimization: Your Language Model is Secretly a Reward Model<\/em>.<\/strong><\/mark><\/a><\/p><p class=\"wp-block-paragraph\">Metoda ta wykorzystuje pary przyk\u0142ad\u00f3w. Je\u015bli jeste\u015b zaawansowanym u\u017cytkownikiem ChatGPT, by\u0107 mo\u017ce spotka\u0142a\u015b \/ spotka\u0142e\u015b si\u0119 ju\u017c z sytuacj\u0105, gdzie w interfejsie u\u017cytkownika (tzw. \u201eokienku chatu\u201d na stronie) widzisz dwie odpowiedzi i masz zag\u0142osowa\u0107 na jedn\u0105 z nich. A wszystko po to, by p\u00f3\u017aniej ta preferowana przez Ciebie odpowied\u017a zosta\u0142a u\u017cyta w dalszym treningu. Poni\u017cej przyk\u0142ad takiego \u201eg\u0142osowania\u201d.<\/p><p class=\"wp-block-paragraph\">Minusem tej metody jest liczba przyk\u0142ad\u00f3w, jaka jest potrzebna, aby rzeczywi\u015bcie przyuczenie (finetuning) modelu wp\u0142yn\u0119\u0142o na jako\u015b\u0107 jego odpowiedzi. Mo\u017ce te\u017c nadmiernie wp\u0142yn\u0105\u0107 na styl odpowiedzi, nachalnie przekrzywiaj\u0105c go w jedn\u0105 konkretn\u0105 stron\u0119. Czyli je\u015bli wi\u0119kszo\u015b\u0107 u\u017cytkownik\u00f3w wybierze kr\u00f3tkie odpowiedzi, osoby, kt\u00f3re wol\u0105 d\u0142ugie teksty, mog\u0105 by\u0107 po takiej optymalizacji do\u015b\u0107 rozczarowane. U\u017cytkownik ko\u0144cowy mo\u017ce jedynie g\u0142osowa\u0107 na wybrane opcje i liczy\u0107, \u017ce tw\u00f3rcy LLM w nast\u0119pnym treningu wezm\u0105 pod uwag\u0119 w\u0142a\u015bnie jego preferencje.<\/p><p class=\"has-text-align-center wp-block-paragraph\"> <img loading=\"lazy\" decoding=\"async\" width=\"700\" height=\"1120\" class=\"wp-image-5440\" style=\"width: 700px;\" src=\"https:\/\/haimagazine.com\/wp-content\/uploads\/2024\/09\/olimpia.png\" alt=\"\" srcset=\"https:\/\/haimagazine.com\/wp-content\/uploads\/2024\/09\/olimpia.png 1161w, https:\/\/haimagazine.com\/wp-content\/uploads\/2024\/09\/olimpia-188x300.png 188w, https:\/\/haimagazine.com\/wp-content\/uploads\/2024\/09\/olimpia-640x1024.png 640w, https:\/\/haimagazine.com\/wp-content\/uploads\/2024\/09\/olimpia-768x1228.png 768w, https:\/\/haimagazine.com\/wp-content\/uploads\/2024\/09\/olimpia-960x1536.png 960w, https:\/\/haimagazine.com\/wp-content\/uploads\/2024\/09\/olimpia-600x960.png 600w\" sizes=\"auto, (max-width: 700px) 100vw, 700px\" \/><\/p><p class=\"wp-block-paragraph\"><img loading=\"lazy\" decoding=\"async\" width=\"150\" height=\"27\" class=\"wp-image-5436\" style=\"width: 150px;\" src=\"https:\/\/haimagazine.com\/wp-content\/uploads\/2024\/09\/linia.png\" alt=\"\" srcset=\"https:\/\/haimagazine.com\/wp-content\/uploads\/2024\/09\/linia.png 389w, https:\/\/haimagazine.com\/wp-content\/uploads\/2024\/09\/linia-300x53.png 300w\" sizes=\"auto, (max-width: 150px) 100vw, 150px\" \/><\/p><p class=\"wp-block-paragraph\"><strong>DoLA (Decoding by Contrasting Layers)<\/strong> (<a href=\"https:\/\/arxiv.org\/abs\/2309.03883\" target=\"_blank\" rel=\"noopener\"><strong><mark style=\"background-color:#82D65E\" class=\"has-inline-color has-base-color\">\u017ar\u00f3d\u0142o<\/mark><\/strong><\/a>)<br>R\u00f3\u017cne cz\u0119\u015bci wiedzy wbudowanej w LLM mog\u0105 by\u0107 dost\u0119pne w r\u00f3\u017cnych warstwach modelu. Je\u015bli por\u00f3wnamy ze sob\u0105 odpowied\u017a na to samo pytanie uzyskan\u0105 z wyj\u015bcia r\u00f3\u017cnych warstw, mo\u017cemy potwierdzi\u0107, czy jest ona halucynacj\u0105.<\/p><p class=\"wp-block-paragraph\">Technika tego por\u00f3wnania opiera si\u0119 na obliczeniu r\u00f3\u017cnicy pomi\u0119dzy log(ni\u017csza warstwa) i log(wy\u017csza warstwa) i nazywana jest funkcj\u0105 kontrastuj\u0105c\u0105. <\/p><p class=\"wp-block-paragraph\">Wyobra\u017amy sobie, \u017ce model j\u0119zykowy ma odpowiedzie\u0107 na pytanie \u201eWhat is the capital of Washington State?\u201d:<\/p><ul class=\"wp-block-list\"><li><strong>Ni\u017csze Warstwy<\/strong>: Mog\u0105 sugerowa\u0107 odpowiedzi takie jak \u201eSeattle\u201d, \u201eSpokane\u201d z wysokim prawdopodobie\u0144stwem, poniewa\u017c te miasta s\u0105 znane i pasuj\u0105 kontekstowo do pytania o miasto.<\/li><\/ul><ul class=\"wp-block-list\"><li><strong>Wy\u017csze Warstwy: <\/strong>Lepiej wychwytuj\u0105 wiedz\u0119 faktyczn\u0105 i mog\u0105 zwi\u0119kszy\u0107 prawdopodobie\u0144stwo dla \u201eOlympia\u201d, poniewa\u017c jest to prawid\u0142owa odpowied\u017a.<\/li><\/ul><p class=\"wp-block-paragraph\">To por\u00f3wnanie pomi\u0119dzy warstwami pomo\u017ce zwi\u0119kszy\u0107 prawdopodobie\u0144stwo tokena \u201eOlympia\u201d wzgl\u0119dem \u201eSeattle\u201d, poniewa\u017c w wy\u017cszych warstwach modelu prawdziwe fakty s\u0105 bardziej wyra\u017ane. Ta technika niestety jest dost\u0119pna jedynie dla tw\u00f3rc\u00f3w LLM-\u00f3w lub u\u017cytkownik\u00f3w modeli otwartych. U\u017cytkownik ko\u0144cowy tradycyjnie dost\u0119pnych chatbot\u00f3w nie ma wp\u0142ywu na korzystanie z tej techniki.<\/p><p class=\"wp-block-paragraph\"><img loading=\"lazy\" decoding=\"async\" width=\"150\" height=\"27\" class=\"wp-image-5436\" style=\"width: 150px;\" src=\"https:\/\/haimagazine.com\/wp-content\/uploads\/2024\/09\/linia.png\" alt=\"\" srcset=\"https:\/\/haimagazine.com\/wp-content\/uploads\/2024\/09\/linia.png 389w, https:\/\/haimagazine.com\/wp-content\/uploads\/2024\/09\/linia-300x53.png 300w\" sizes=\"auto, (max-width: 150px) 100vw, 150px\" \/><\/p><p class=\"wp-block-paragraph\"><strong>Flame Factuality-Aware Alignment<\/strong> (<a href=\"https:\/\/arxiv.org\/pdf\/2405.01525\" target=\"_blank\" rel=\"noopener\"><strong><mark style=\"background-color:#82D65E\" class=\"has-inline-color has-base-color\">\u017ar\u00f3d\u0142o<\/mark><\/strong><\/a>)<\/p><p class=\"wp-block-paragraph\">W trakcie standardowego procesu strojenia LLM mamy kolejne etapy, w tym m.in: <\/p><p class=\"wp-block-paragraph\">\u2013 SFT \u2013 supervised fine tuning trenowanie na instrukcjach zawieraj\u0105cych wysokiej jako\u015bci ludzkie odpowiedzi, <\/p><p class=\"wp-block-paragraph\">\u2013 Reinforcement Learning (RL) preferuje d\u0142u\u017csze odpowiedzi, ale jednocze\u015bnie mo\u017ce stymulowa\u0107 model do wi\u0119kszej liczby halucynacji.<\/p><p class=\"wp-block-paragraph\">Proponowane rozwi\u0105zanie to FLAME, kt\u00f3re sk\u0142ada si\u0119 z dw\u00f3ch komponent\u00f3w:<\/p><ul class=\"wp-block-list\"><li><strong>Factuality-Aware SFT<\/strong><\/li><\/ul><p class=\"wp-block-paragraph\">\u2013 Dla instrukcji nieopartych na faktach wykorzy- stuje odpowiedzi stworzone przez ludzi.<\/p><p class=\"wp-block-paragraph\">\u2013 Dla instrukcji opartych o fakty generuje dane treningowe w oparciu o wiedz\u0119 wst\u0119pnie wy- trenowanego modelu (korzysta z \u201ewbudowanej ju\u017c\u201d wiedzy).<\/p><p class=\"wp-block-paragraph\">\u2013 Zapobiega to trenowaniu modelu na nieznanych (lub sprzecznych \/ niekompletnych \/ b\u0142\u0119dnych) informacjach podawanych w instrukcjach tworzonych ad hoc przez anotator\u00f3w.<\/p><ul class=\"wp-block-list\"><li><strong>Factuality-Aware RL<\/strong><\/li><\/ul><p class=\"wp-block-paragraph\">\u2013 Wykorzystuje DPO (Direct Preference Optimization).<\/p><p class=\"wp-block-paragraph\">\u2013 Tworzy pary przyk\u0142ad\u00f3w treningowych sku- pionych na zgodno\u015bci z faktami dla instrukcji opartych o fakty.<\/p><p class=\"wp-block-paragraph\">\u2013 R\u00f3wnie\u017c ta technika jest dost\u0119pna tylko w trakcie tworzenia modelu, a nie podczas jego finalnego u\u017cywania.<\/p><p class=\"wp-block-paragraph\"><img loading=\"lazy\" decoding=\"async\" width=\"150\" height=\"27\" class=\"wp-image-5436\" style=\"width: 150px;\" src=\"https:\/\/haimagazine.com\/wp-content\/uploads\/2024\/09\/linia.png\" alt=\"\" srcset=\"https:\/\/haimagazine.com\/wp-content\/uploads\/2024\/09\/linia.png 389w, https:\/\/haimagazine.com\/wp-content\/uploads\/2024\/09\/linia-300x53.png 300w\" sizes=\"auto, (max-width: 150px) 100vw, 150px\" \/><\/p><p class=\"wp-block-paragraph\"><strong>Uczenie modelu z naciskiem na to, by jawnie sygnalizowa\u0142 swoj\u0105 niepewno\u015b\u0107 co do wyniku<\/strong> (<a href=\"https:\/\/arxiv.org\/pdf\/2205.14334\" target=\"_blank\" rel=\"noopener\"><strong><mark style=\"background-color:#82D65E\" class=\"has-inline-color has-base-color\">\u017ar\u00f3d\u0142o<\/mark><\/strong><\/a>)<\/p><p class=\"wp-block-paragraph\">Poprzez fine-tuning, czyli dostrajanie, uczymy model, aby \u201ewerbalizowa\u0142\u201d swoj\u0105 niepewno\u015b\u0107, dodaj\u0105c do odpowiedzi informacj\u0119, na ile jest przekonany o tym, co w\u0142a\u015bnie wygenerowa\u0142, np. \u201ena 75%\u201d albo \u201ez niskim prawdopodobie\u0144stwem\u201d.<\/p><p class=\"wp-block-paragraph\">Kalibracja jest dokonywana na poziomie s\u0142\u00f3w przy u\u017cyciu ciekawego zbioru danych Calibrated- Math, zawieraj\u0105cego proste zadania matematyczne. Im odpowied\u017a bli\u017csza prawdy, tym wy\u017csza pewno\u015b\u0107 modelu.<\/p><p class=\"wp-block-paragraph\">Prowadzi to do stworzenia bardziej \u201euczciwego\u201d modelu, kt\u00f3ry odpowiada, jednocze\u015bnie sygnalizuj\u0105c, \u017ce istnieje prawdopodobie\u0144stwo wyst\u0105pienia przek\u0142ama\u0144 w tej odpowiedzi (halucynacji).<\/p><p class=\"wp-block-paragraph\"><img loading=\"lazy\" decoding=\"async\" width=\"150\" height=\"27\" class=\"wp-image-5436\" style=\"width: 150px;\" src=\"https:\/\/haimagazine.com\/wp-content\/uploads\/2024\/09\/linia.png\" alt=\"\" srcset=\"https:\/\/haimagazine.com\/wp-content\/uploads\/2024\/09\/linia.png 389w, https:\/\/haimagazine.com\/wp-content\/uploads\/2024\/09\/linia-300x53.png 300w\" sizes=\"auto, (max-width: 150px) 100vw, 150px\" \/><\/p><p class=\"wp-block-paragraph\"><strong>Korzystanie z tego, \u017ce \u201emodel (w wi\u0119kszo\u015bci wypadk\u00f3w) wie, co wie\u201d<\/strong> (<a href=\"https:\/\/arxiv.org\/abs\/2207.05221\" data-type=\"link\" data-id=\"https:\/\/arxiv.org\/abs\/2207.05221\" target=\"_blank\" rel=\"noopener\"><strong><mark style=\"background-color:#82D65E\" class=\"has-inline-color has-base-color\">\u017ar\u00f3d\u0142o<\/mark><\/strong><\/a>)<\/p><p class=\"wp-block-paragraph\">Ciekawa metoda pokazuj\u0105ca, i\u017c dobrze skalibrowany model jest zdolny do oceny prawdopodobie\u0144stwa poprawnej odpowiedzi. W przypadku pyta\u0144 otwartych modele r\u00f3wnie\u017c mog\u0105 zaproponowa\u0107 odpowied\u017a i zweryfikowa\u0107, czy jest ona prawdziwa.<\/p><p class=\"wp-block-paragraph\">Przyk\u0142ad takich danych do kalibracji: Question: Who was the first president of the United States? Choices: (A) Barack Obama (B) George Washington (C) Michael Jackson Answer. Model musi odpowiedzie\u0107, podaj\u0105c prawdopodobie\u0144stwa dla ka\u017cdej z odpowiedzi. Inna metoda to kilka podanych podpowiedzi. Mo\u017cna to sprawdzi\u0107 u\u017cywaj\u0105c poni\u017cszego promptu. Modele od OpenAI czy Anthropic oczywi\u015bcie odpowiadaj\u0105 prawid\u0142owo. Ale warto przetestowa\u0107 te mniejsze, typu Mistral, Gemma, LLama2 czy GPT-4o.<\/p><figure class=\"wp-block-image size-large\"><img loading=\"lazy\" decoding=\"async\" width=\"1024\" height=\"251\" src=\"https:\/\/haimagazine.com\/wp-content\/uploads\/2024\/09\/Screenshot-2024-09-30-at-09.53.56-1024x251.png\" alt=\"\" class=\"wp-image-5252\" srcset=\"https:\/\/haimagazine.com\/wp-content\/uploads\/2024\/09\/Screenshot-2024-09-30-at-09.53.56-1024x251.png 1024w, https:\/\/haimagazine.com\/wp-content\/uploads\/2024\/09\/Screenshot-2024-09-30-at-09.53.56-300x74.png 300w, https:\/\/haimagazine.com\/wp-content\/uploads\/2024\/09\/Screenshot-2024-09-30-at-09.53.56-768x189.png 768w, https:\/\/haimagazine.com\/wp-content\/uploads\/2024\/09\/Screenshot-2024-09-30-at-09.53.56-1536x377.png 1536w, https:\/\/haimagazine.com\/wp-content\/uploads\/2024\/09\/Screenshot-2024-09-30-at-09.53.56-600x147.png 600w, https:\/\/haimagazine.com\/wp-content\/uploads\/2024\/09\/Screenshot-2024-09-30-at-09.53.56.png 2028w\" sizes=\"auto, (max-width: 1024px) 100vw, 1024px\" \/><\/figure><p class=\"wp-block-paragraph\">Wykres kalibracji pokazuje, jak dobrze przewidywane prawdopodobie\u0144stwa modelu pokrywaj\u0105 si\u0119 z cz\u0119sto\u015bci\u0105 prawid\u0142owych odpowiedzi. Przyk\u0142adowo: dla 100 pyta\u0144 model przypisa\u0142 prawdopodobie\u0144stwo 0.7 temu, \u017ce jego odpowied\u017a b\u0119dzie poprawna. W grupie pyta\u0144 z prawdopodobie\u0144stwem 0.7 model odpowiedzia\u0142 poprawnie na 60 pyta\u0144 z 100.<\/p><p class=\"wp-block-paragraph\">Dla pyta\u0144 z prawdopodobie\u0144stwem 0.7 rzeczywista cz\u0119sto\u015b\u0107 poprawnych odpowiedzi wynosi 60\/100 = 0.60. Je\u015bli model przypisuje 0.7 (70%) prawdopodobie\u0144stwa do poprawnej odpowiedzi, powinien by\u0107 poprawny w 70% przypadk\u00f3w w tej grupie (a jest tylko w 60%).<\/p><p class=\"wp-block-paragraph\"><strong>Halucynacje sprawiaj\u0105, \u017ce LLM-y miewaj\u0105 w biznesie z\u0142\u0105 pras\u0119 \u2013 skoro tak bardzo potrafi\u0105 si\u0119 myli\u0107, to pewnie s\u0105 bezu\u017cyteczne. Podej\u015bcie to o tyle mnie dziwi, \u017ce przecie\u017c w klasycznej data science nie raz akceptujemy \u2013 z powodu ma\u0142ej ilo\u015bci czy s\u0142abej jako\u015bci danych \u2013 modele, kt\u00f3re myl\u0105 si\u0119 o wiele dotkliwiej. Ale poniewa\u017c wybrana przez nas metryka wypada wysoko, to wierzymy, \u017ce rozwi\u0105zanie b\u0119dzie korzystne. Mo\u017ce z LLM-ami warto post\u0105pi\u0107 podobnie? Skupmy si\u0119 na innych poziomach ni\u017c tylko poziom halucynacji w metrykach, bo mimo znanych wad potrafi\u0105 by\u0107 biznesowo naprawd\u0119 bardzo u\u017cyteczne.<\/strong><\/p>","protected":false},"excerpt":{"rendered":"<p>Czym s\u0105 halucynacje, czyli tak zwane b\u0142\u0119dne odpowiedzi lub predykcje modelu, jakie s\u0105 rodzaje tych b\u0142\u0119d\u00f3w, i przede wszystkim, jak sobie z nimi radzi\u0107? <\/p>\n","protected":false},"author":100,"featured_media":4514,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"_acf_changed":false,"rank_math_lock_modified_date":false,"footnotes":""},"categories":[402,763,754,404],"tags":[],"popular":[],"difficulty-level":[37],"ppma_author":[380],"class_list":["post-4512","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-hai-magazine","category-ai_praktyka","category-hai_premium","category-hai-magazine-2","difficulty-level-hard"],"acf":[],"authors":[{"term_id":380,"user_id":100,"is_guest":0,"slug":"michal-dulemba","display_name":"Michal Dulemba","avatar_url":{"url":"https:\/\/haimagazine.com\/wp-content\/uploads\/2024\/09\/mdulemba.jpg","url2x":"https:\/\/haimagazine.com\/wp-content\/uploads\/2024\/09\/mdulemba.jpg"},"first_name":"Micha\u0142","last_name":"Dulemba","user_url":"","job_title":"","description":"Do\u015bwiadczony in\u017cynier ML, youtuber i autor znany z interdyscyplinarnego podej\u015bcia do technologii i medi\u00f3w."}],"_links":{"self":[{"href":"https:\/\/haimagazine.com\/pl\/wp-json\/wp\/v2\/posts\/4512","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/haimagazine.com\/pl\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/haimagazine.com\/pl\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/haimagazine.com\/pl\/wp-json\/wp\/v2\/users\/100"}],"replies":[{"embeddable":true,"href":"https:\/\/haimagazine.com\/pl\/wp-json\/wp\/v2\/comments?post=4512"}],"version-history":[{"count":10,"href":"https:\/\/haimagazine.com\/pl\/wp-json\/wp\/v2\/posts\/4512\/revisions"}],"predecessor-version":[{"id":5728,"href":"https:\/\/haimagazine.com\/pl\/wp-json\/wp\/v2\/posts\/4512\/revisions\/5728"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/haimagazine.com\/pl\/wp-json\/wp\/v2\/media\/4514"}],"wp:attachment":[{"href":"https:\/\/haimagazine.com\/pl\/wp-json\/wp\/v2\/media?parent=4512"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/haimagazine.com\/pl\/wp-json\/wp\/v2\/categories?post=4512"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/haimagazine.com\/pl\/wp-json\/wp\/v2\/tags?post=4512"},{"taxonomy":"popular","embeddable":true,"href":"https:\/\/haimagazine.com\/pl\/wp-json\/wp\/v2\/popular?post=4512"},{"taxonomy":"difficulty-level","embeddable":true,"href":"https:\/\/haimagazine.com\/pl\/wp-json\/wp\/v2\/difficulty-level?post=4512"},{"taxonomy":"author","embeddable":true,"href":"https:\/\/haimagazine.com\/pl\/wp-json\/wp\/v2\/ppma_author?post=4512"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}