{"id":9295,"date":"2025-03-31T10:00:00","date_gmt":"2025-03-31T08:00:00","guid":{"rendered":"https:\/\/haimagazine.com\/?p=9295"},"modified":"2025-06-18T10:12:09","modified_gmt":"2025-06-18T08:12:09","slug":"zrozumiec-ai-gra-o-bezpieczenstwo","status":"publish","type":"post","link":"https:\/\/haimagazine.com\/pl\/hai-magazine\/numer-4\/zrozumiec-ai-gra-o-bezpieczenstwo\/","title":{"rendered":"Zrozumie\u0107 AI: gra o bezpiecze\u0144stwo"},"content":{"rendered":"<p><strong>Inez Okulska: Bezpiecze\u0144stwo w kontek\u015bcie sztucznej inteligencji jest odmieniane przez wszystkie przypadki. I wielcy gracze, i pocz\u0105tkuj\u0105cy entuzja\u015bci coraz cz\u0119\u015bciej czuj\u0105, \u017ce te dwa poj\u0119cia, cho\u0107 nie zawsze \u0142atwe do pogodzenia (patrz: huczne zwolnienia w big techach w\u0142a\u015bnie na tym polu), musz\u0105 jednak i\u015b\u0107 rami\u0119 w rami\u0119. Czy ryzyko to wada jedynie z\u0142ych modeli, czy nieodzowny aspekt tej technologii? Co w\u0142a\u015bciwie oznacza \u201ebezpiecze\u0144stwo AI\u201d w przypadku biznesu i codziennego \u017cycia?<\/strong><\/p><p><strong>Przemys\u0142aw Biecek: <\/strong>Parafrazuj\u0105c zasad\u0119 Anny Kareniny: wszystkie dobre modele s\u0105 do siebie podobne, ka\u017cdy z\u0142y model jest z\u0142y na sw\u00f3j spos\u00f3b. To powiedzenie \u015bwietnie si\u0119 sprawdza w badaniu bezpiecze\u0144stwa modeli sztucznej inteligencji. Sprawiedliwa (unbiased), zabezpieczona (secure), zaufana (trusted), odporna (robust), zrozumia\u0142a (transparent), sprawdzona (verified) \u2013 to jedynie przyk\u0142adowe definicje bezpiecznej AI. Od bezpiecznego modelu wymagamy bardzo wielu po\u017c\u0105danych cech, a pora\u017cka w co najmniej jednej z nich powoduje, \u017ce model uznamy za wadliwy, a czasem wr\u0119cz niebezpieczny. S\u0142owo \u201ebezpieczny\u201d jest tu parasolem dla wielu kryteri\u00f3w, kt\u00f3re chcemy mie\u0107 spe\u0142nione.<\/p><p>Model mo\u017ce by\u0107 bezpieczny, tak jak bezpieczny jest dom, do kt\u00f3rego nikt si\u0119 nie w\u0142amie, bo ma system zabezpiecze\u0144, alarmy i zamki. W tym przypadku to oznacza, \u017ce \u017caden niepo\u017c\u0105dany aktor nie b\u0119dzie wp\u0142ywa\u0142 na dzia\u0142anie modelu, nie zaburzy jego wynik\u00f3w. Coraz wi\u0119cej przedsi\u0119biorstw opiera si\u0119 na modu\u0142ach AI, wi\u0119c kluczowe jest zagwarantowanie, \u017ce te modu\u0142y nie b\u0119d\u0105 manipulowane przez wrog\u0105 konkurencj\u0119, nieprzychylnych u\u017cytkownik\u00f3w czy innych graczy o z\u0142ych intencjach.<\/p><p>Ale model mo\u017ce by\u0107 bezpieczny jak dom, w kt\u00f3rym czujemy si\u0119 dobrze, bo panuje w nim szcz\u0119\u015bcie, sprawiedliwa i wspieraj\u0105ca atmosfera. W tym przypadku bezpiecze\u0144stwo mo\u017ce oznacza\u0107 zaufanie i brak dyskryminacji. Je\u017celi w moim codziennym \u017cyciu pewne decyzje, takie jak dost\u0119p do dobrej edukacji lub leczenia, zale\u017c\u0105 od rekomendacji algorytm\u00f3w AI, to najwa\u017cniejsza jest pewno\u015b\u0107, \u017ce te modu\u0142y nie b\u0119d\u0105 mnie dyskryminowa\u0142y z uwagi na wiek, kolor sk\u00f3ry, p\u0142e\u0107 czy inne cechy niezwi\u0105zane bezpo\u015brednio z przedmiotem decyzji.<\/p><p>Wreszcie model mo\u017ce by\u0107 te\u017c bezpieczny jak dom, kt\u00f3ry nie wybucha, bo instalacj\u0119 elektryczn\u0105 czy gazow\u0105 regularnie sprawdzaj\u0105 wykwalifikowani pracownicy. W tym przypadku bezpiecze\u0144stwo oznacza redukcj\u0119 ryzyka po\u017caru, pora\u017cenia pr\u0105dem, zatrucia gazem. Je\u017celi w mojej firmie kluczowa cz\u0119\u015b\u0107 biznesu opiera si\u0119 na module AI, to nie chc\u0119, by jego awaria doprowadzi\u0142a do niekontrolowanej liczby pozw\u00f3w lub za\u017cale\u0144, kt\u00f3re mog\u0105 zatopi\u0107 moj\u0105 firm\u0119.<\/p><p>Nie ma jednej definicji bezpiecze\u0144stwa, mamy za to wiele przyk\u0142ad\u00f3w b\u0142\u0119dnie dzia\u0142aj\u0105cych modeli. Jako spo\u0142eczno\u015b\u0107 dopiero si\u0119 uczymy konstruowa\u0107 odpowiednie standardy bezpiecze\u0144stwa, odkrywamy zupe\u0142nie nowe wyzwania zwi\u0105zane z tym obszarem. Dlatego praca nad bezpiecznymi modelami jest tak fascynuj\u0105ca.<\/p><p><strong>IO: Skoro tak wiele rzeczy mo\u017ce p\u00f3j\u015b\u0107 \u017ale, to czy istniej\u0105 bazy danych, kt\u00f3re dokumentuj\u0105 przypadki, gdy AI zawiod\u0142a? I czego biznes mo\u017ce si\u0119 z nich nauczy\u0107?<\/strong><\/p><p><strong>PB: <\/strong>Istnieje kilka takich baz danych i co jaki\u015b czas pojawiaj\u0105 si\u0119 nowe. Ja najcz\u0119\u015bciej \u015bledz\u0119 i polecam baz\u0119 IncidentDatabase.AI zawieraj\u0105c\u0105 setki dobrze udokumentowanych b\u0142\u0119d\u00f3w i szk\u00f3d powsta\u0142ych w wyniku nieprawid\u0142owego dzia\u0142ania system\u00f3w AI. To \u015bwietne repozytorium, poniewa\u017c systematycznie gromadzi i analizuje przypadki, w kt\u00f3rych AI dzia\u0142a\u0142a \u017ale \u2013 od stronniczych algorytm\u00f3w po spektakularne b\u0142\u0119dy w systemach autonomicznych. To skarbnica wiedzy dla badaczy, in\u017cynier\u00f3w oraz ka\u017cdego, kto chce budowa\u0107 lepsz\u0105 i bezpieczniejsz\u0105 AI.<\/p><p>Jest te\u017c ranking Epic fAIls, kt\u00f3ry od jakiego\u015b czasu organizuj\u0119. To coroczne zestawienie najbardziej spektakularnych b\u0142\u0119d\u00f3w sztucznej inteligencji, kt\u00f3re zosta\u0142y wykryte w danym roku. Znajdziesz tam przyk\u0142ady, kt\u00f3re pokazuj\u0105, jak bardzo AI potrafi nas zaskoczy\u0107, ale te\u017c bole\u015bnie rozczarowa\u0107.<\/p><p>Przyk\u0142adowo trzecie miejsce w plebiscycie za rok 2024 otrzyma\u0142 model transkrypcyjny Whisper. W pa\u017adzierniku 2024 r. ujawniono, \u017ce ten model, opracowany przez OpenAI, zoptymalizowany, by \u201ewyg\u0142adza\u0107\u201d tekst, pope\u0142nia\u0142 powa\u017cne b\u0142\u0119dy w zastosowaniach medycznych, prowadz\u0105c do tzw. halucynacji \u2013 generowa\u0142 elementy tekstu, kt\u00f3rych nie by\u0142o w pierwotnym nagraniu. Mimo ostrze\u017ce\u0144 OpenAI przed stosowaniem Whispera w \u201eobszarach wysokiego ryzyka\u201d narz\u0119dzie to zosta\u0142o wdro\u017cone w ponad 40 systemach opieki zdrowotnej i obj\u0119\u0142o ponad 30 tys. pracownik\u00f3w medycznych, na <a href=\"https:\/\/go.campus.ai\/4ihTPTP\" data-type=\"link\" data-id=\"https:\/\/go.campus.ai\/4ihTPTP\" target=\"_blank\" rel=\"noopener\"><mark style=\"background-color:#82D65E\" class=\"has-inline-color has-contrast-color\">przyk\u0142ad w Children\u2019s Hospital w Los Angeles<\/mark><\/a>. Badania wykaza\u0142y, \u017ce w 80% analizowanych transkrypcji z publicznych spotka\u0144 Whisper wprowadza\u0142 nieistniej\u0105ce tre\u015bci. Inne badanie pokaza\u0142o, \u017ce w prawie wszystkich z 26 tys. przetestowanych transkrypcji pojawia\u0142y si\u0119 halucynacje \u2013 tre\u015bci, kt\u00f3re nie istnia\u0142y <a href=\"https:\/\/go.campus.ai\/4bJ6Xip\" data-type=\"link\" data-id=\"https:\/\/go.campus.ai\/4bJ6Xip\" target=\"_blank\" rel=\"noopener\"><mark style=\"background-color:#82D65E\" class=\"has-inline-color has-contrast-color\">w oryginalnym wywiadzie<\/mark><\/a>. W kontek\u015bcie medycznym tego rodzaju b\u0142\u0119dy mog\u0105 prowadzi\u0107 do powa\u017cnych konsekwencji, takich jak b\u0142\u0119dne diagnozy czy nieporozumienia mi\u0119dzy personelem medycznym a pacjentami, b\u0142\u0119dna dokumentacja historii pacjenta. W jednym z przypadk\u00f3w Whisper doda\u0142 fikcyjny tekst, w kt\u00f3rym stwierdzono, \u017ce oso- by \u201eby\u0142y czarne\u201d, mimo \u017ce takiej informacji nie by\u0142o w oryginalnym nagraniu. Innym razem neutralne wypowiedzi zosta\u0142y przekszta\u0142cone w tre\u015bci o charakterze przemocowym.<\/p><p><strong>IO: Mocne! A to dopiero trzecie miejsce. To jak spektakularna pora\u017cka zmiot\u0142a konkurencj\u0119?<\/strong><\/p><p><strong>PB: <\/strong>Szczeg\u00f3\u0142owe om\u00f3wienie wynik\u00f3w plebiscytu mo\u017cna znale\u017a\u0107 <a href=\"https:\/\/go.campus.ai\/3R5V2S9\" data-type=\"link\" data-id=\"https:\/\/go.campus.ai\/3R5V2S9\" target=\"_blank\" rel=\"noopener\"><mark style=\"background-color:#82D65E\" class=\"has-inline-color has-contrast-color\">w podca\u015bcie nagranym dla Pulsara<\/mark><\/a>, ale zdradz\u0119, \u017ce najwi\u0119ksz\u0105 wtop\u0105 roku 2024 okaza\u0142 si\u0119 model Gemini, kt\u00f3ry mia\u0142 eliminowa\u0107 uprzedzenia i dyskryminacj\u0119, a zamiast tego generowa\u0142 historycznie niepoprawne obrazy.<\/p><p>Gemini, rozwijany przez Google DeepMind, zosta\u0142 zaprojektowany z my\u015bl\u0105 o inkluzywno\u015bci i zapobieganiu uprzedzeniom w generowanych tre\u015bciach. Jednak w lutym 2024 r. u\u017cytkownicy odkryli, \u017ce model nadmiernie pr\u00f3bowa\u0142 wprowadza\u0107 r\u00f3\u017cnorodno\u015b\u0107 etniczn\u0105 nawet w kontekstach, w kt\u00f3rych by\u0142o to historycznie niepoprawne. W odpowiedzi na pro\u015bb\u0119 o wygenerowanie zdj\u0119\u0107 historycznych postaci, takich jak ameryka\u0144scy ojcowie za\u0142o\u017cyciele, papie\u017ce czy rzymscy cesarze, model cz\u0119sto przedstawia\u0142 je jako osoby o r\u00f3\u017cnorodnym pochodzeniu etnicznym, po- mijaj\u0105c realia historyczne. Najwi\u0119ksze oburzenie wy- wo\u0142a\u0142o generowanie nazist\u00f3w, \u017co\u0142nierzy niemieckich z czas\u00f3w drugiej wojny \u015bwiatowej jako os\u00f3b o r\u00f3\u017cnym kolorze sk\u00f3ry, co zosta\u0142o uznane za zniekszta\u0142canie historii.<\/p><p>Podobne problemy pojawia\u0142y si\u0119 w generowaniu obraz\u00f3w historycznych scen, takich jak \u015bredniowieczna Europa czy staro\u017cytna Grecja, gdzie Gemini nadmiernie poprawia\u0142 ich demografi\u0119, by unikn\u0105\u0107 oskar\u017ce\u0144 o dyskryminacj\u0119. Po fali krytyki firma Google oficjalnie przeprosi\u0142a za b\u0142\u0105d i czasowo wycofa\u0142a mo\u017cliwo\u015b\u0107 generowania obraz\u00f3w w Gemini. Firma przyzna\u0142a, \u017ce ich system pr\u00f3bowa\u0142 \u201eaktywnie przeciwdzia\u0142a\u0107 stereotypom\u201d, ale zrobi\u0142 to w spos\u00f3b zbyt agresywny, co doprowadzi\u0142o do halucynacji niezgodnych z faktami. To zdarzenie stanowi doskona\u0142y przyk\u0142ad trudno\u015bci zwi\u0105zanych z etycznym zarz\u0105dzaniem danymi i biasem w modelach AI. Pokazuje, jak skomplikowane jest balansowanie mi\u0119dzy inkluzywno\u015bci\u0105 a wierno\u015bci\u0105 historycznym faktom. Wiele os\u00f3b wskazywa\u0142o, \u017ce AI powinna d\u0105\u017cy\u0107 do obiektywno\u015bci zamiast pr\u00f3bowa\u0107 \u201epoprawia\u0107\u201d histori\u0119 wed\u0142ug wsp\u00f3\u0142czesnych standard\u00f3w.<\/p><p><strong>IO: Je\u015bli na czele tej ma\u0142o chlubnej stawki s\u0105 nawet giganci i narz\u0119dzia, na kt\u00f3rych chcemy i mo\u017cemy polega\u0107, to co powinni\u015bmy robi\u0107? Moim zdaniem jednak sam fakt, \u017ce takie rankingi powstaj\u0105, jest buduj\u0105cy. \u015awiadczy o tym, \u017ce potrafimy zagl\u0105da\u0107 pod podszewk\u0119 i analizowa\u0107 dzia\u0142anie modeli \u2013 cho\u0107by po to, by czasem odkry\u0107, jak bardzo b\u0142\u0105dz\u0105.<\/strong><\/p><p><strong>PB:<\/strong> Jednym z narz\u0119dzi analizy modeli jest rozw\u00f3j obszaru wyja\u015bnialnej sztucznej inteligencji (Explainable AI, XAI), czyli technik, kt\u00f3re pozwalaj\u0105 nam zrozumie\u0107, dlaczego model podj\u0105\u0142 dan\u0105 decyzj\u0119. Za- miast traktowa\u0107 AI jak magiczne pude\u0142ko, mo\u017cemy budowa\u0107 systemy, kt\u00f3re t\u0142umacz\u0105 swoje wyniki (np. w medycynie AI nie powinna tylko powiedzie\u0107: \u201eTo rak\u201d, ale wskaza\u0107, kt\u00f3re obszary obrazu doprowadzi\u0142y do takiej diagnozy), umo\u017cliwiaj\u0105 audyt i testowanie (zamiast wierzy\u0107 na s\u0142owo, mo\u017cemy sprawdza\u0107, czy model dzia\u0142a uczciwie, np. w finansach czy rekrutacji), ostrzegaj\u0105 przed w\u0142asnymi ograniczeniami (zamiast halucynowa\u0107, AI mog\u0142aby m\u00f3wi\u0107: \u201eNie jestem pewna\u201d lub wskazywa\u0107 poziom swojej pewno\u015bci).<\/p><p>Czy ryzyka s\u0105 wpisane w AI? Tak, ale to nie znaczy, \u017ce musimy si\u0119 z nimi pogodzi\u0107. Lepsza transparentno\u015b\u0107 to bezpieczniejsze systemy \u2013 zar\u00f3wno dla biznesu, jak i dla u\u017cytkownik\u00f3w.<\/p><div class=\"wp-block-media-text is-stacked-on-mobile is-vertically-aligned-center\" style=\"grid-template-columns:40% auto\"><figure class=\"wp-block-media-text__media\"><img loading=\"lazy\" decoding=\"async\" width=\"334\" height=\"415\" src=\"https:\/\/haimagazine.com\/wp-content\/uploads\/2025\/03\/Zrzut-ekranu-2025-03-28-101444.png\" alt=\"\" class=\"wp-image-9692 size-full\" srcset=\"https:\/\/haimagazine.com\/wp-content\/uploads\/2025\/03\/Zrzut-ekranu-2025-03-28-101444.png 334w, https:\/\/haimagazine.com\/wp-content\/uploads\/2025\/03\/Zrzut-ekranu-2025-03-28-101444-241x300.png 241w\" sizes=\"auto, (max-width: 334px) 100vw, 334px\" \/><\/figure><div class=\"wp-block-media-text__content\"><p><strong>IO: Podzielisz si\u0119 konkretnym przyk\u0142adem wdro\u017cenia wyja\u015bnie\u0144 modelu i ich znaczenia?<\/strong><\/p>\n\n<p><strong>PB: <\/strong>Podam nawet dwa przyk\u0142ady. Dwa lata temu m\u00f3j zesp\u00f3\u0142 budowa\u0142 rozwi\u0105zanie wspieraj\u0105ce detekcj\u0119 ci\u0119\u017ckiego zapalenia nerek dla pacjent\u00f3w po ci\u0119\u017ckim przej\u015bciu choroby covid. Trudny temat, poniewa\u017c powik\u0142ania po tej chorobie by\u0142y wci\u0105\u017c ma\u0142o poznane i intuicj\u0119 lekarzy trzeba by\u0142o na bie\u017c\u0105co por\u00f3wnywa\u0107 z wynikami eksperymentalnych analiz dla pacjent\u00f3w ze szpitala. Dosy\u0107 szybko uda\u0142o nam si\u0119 zbudowa\u0107 system predykcyjny oceniaj\u0105cy ryzyko, ale lekarze nie ufali mu, poniewa\u017c nie chcieli podejmowa\u0107 decyzji maj\u0105cych du\u017ce konsekwencje w oparciu o model, kt\u00f3rego dzia\u0142ania nie znali. Dopiero zastosowanie zbioru metod naszego autorskiego algorytmu <a href=\"https:\/\/iema.drwhy.ai\/\" data-type=\"link\" data-id=\"https:\/\/iema.drwhy.ai\/\" target=\"_blank\" rel=\"noopener\"><mark style=\"background-color:#82D65E\" class=\"has-inline-color has-contrast-color\">Interaktywnej Wyja\u015bnialnej Analizy Modelu<\/mark><\/a> zwi\u0119kszy\u0142o ich zaufanie do wynik\u00f3w modeli. Mo\u017cna by\u0142o w prosty spos\u00f3b sprawdzi\u0107, kt\u00f3re cechy pacjenta s\u0105 najwa\u017cniejsze dla prognozy, i zobaczy\u0107, jak zmienia\u0142aby si\u0119 ta pro- gnoza, gdyby okre\u015blone parametry przyjmowa\u0142y mniejsze lub wi\u0119ksze warto\u015bci.<\/p><\/div><\/div><p>Drugi ciekawy przyk\u0142ad bezpo\u015bredniego u\u017cycia wyja\u015bnialnej AI w biznesie to wsp\u00f3\u0142praca z firm\u0105 KP Labs tworz\u0105c\u0105 algorytmy AI w zastosowaniach kosmicznych. Nasza wsp\u00f3\u0142praca mia\u0142a dynamik\u0119 okre\u015blan\u0105 jako Blue Team vs. Red Team. Zesp\u00f3\u0142 z KP Labs budowa\u0142 modele predykcyjne dla zdj\u0119\u0107 hiperspektralnych w zastosowaniach obserwacji Ziemi, tworzy\u0142 najlepsze modele gotowe do zastosowa\u0144 w bardzo wymagaj\u0105cym \u015brodowisku. Nasz zesp\u00f3\u0142 odgrywa\u0142 rol\u0119 red teamu \u2013 szuka\u0142 s\u0142abo\u015bci i podatno\u015bci zbudowanych modeli, sugeruj\u0105c, w jaki spos\u00f3b mo\u017cna je poprawi\u0107. Tego typu rozwi\u0105zania s\u0105 stosowane w sytuacjach, gdy systemy AI musz\u0105 by\u0107 niezawodne, np. w obronno\u015bci, s\u0142u\u017cbie zdrowia czy zastosowaniach kosmicznych. Niezale\u017cne pary oczu w postaci red teamu pozwalaj\u0105 wyeliminowa\u0107 wiele \u0142atwych do przeoczenia b\u0142\u0119d\u00f3w.<\/p><p><strong>IO: Narz\u0119dzia, o kt\u00f3rych m\u00f3wisz, dotycz\u0105 raczej mniejszych modeli, a co z du\u017cymi, generatywny- mi? Nadal jeste\u015bmy w stanie je wyja\u015bnia\u0107 czy raczej przybli\u017ca\u0107 si\u0119 do ich wzgl\u0119dnego okie\u0142znania? Tradycyjne metody s\u0105 jeszcze przydatne?<\/strong><\/p><p><strong>PB:<\/strong> I tak, i nie. Podstawowe koncepcje s\u0105 podobne i pewne narz\u0119dzia techniczne \u2013 jak na przyk\u0142ad analiza gradient\u00f3w \u2013 maj\u0105 r\u00f3wnie\u017c zastosowanie, ale du\u017ce modele j\u0119zykowe to inna liga, je\u015bli chodzi o wyja\u015bnialno\u015b\u0107. W klasycznych systemach AI, takich jak modele medyczne czy systemy predykcyjne, mo\u017cna stosowa\u0107 do\u015b\u0107 intuicyjne techniki XAI, cho\u0107by pokazuj\u0105c, kt\u00f3re cechy danych mia\u0142y najwi\u0119kszy wp\u0142yw na decyzj\u0119 modelu.<\/p><p>Natomiast LLM-y (Large Language Models) dzia\u0142aj\u0105 w spos\u00f3b sekwencyjny i probabilistyczny \u2013 nie \u201epodejmuj\u0105 decyzji\u201d, lecz przewiduj\u0105 najbardziej prawdopodobne kolejne s\u0142owo na podstawie miliard\u00f3w parametr\u00f3w. Ich \u201erozumowanie\u201d nie\u0142atwo uchwyci\u0107. Wyja\u015bnianie ich dzia\u0142ania to bardziej analiza wp\u0142ywu poszczeg\u00f3lnych fragment\u00f3w tekstu ni\u017c klasyczne pytanie, dlaczego podj\u0119to tak\u0105 decyzj\u0119. Z drugiej strony mo\u017cna je testowa\u0107 bardziej intuicyjnie, np. poprzez zadawanie r\u00f3\u017cnych pyta\u0144 i analizowanie wzorc\u00f3w odpowiedzi.<\/p><p><strong>IO: Czyli zamiast przybli\u017cania funkcji analiza behawioralna.<\/strong><\/p><p><strong>PB:<\/strong> To jest o tyle istotna r\u00f3\u017cnica, \u017ce wyja\u015bnialno\u015b\u0107 modeli j\u0119zykowych nie polega jedynie na pr\u00f3bie ich zrozumienia \u2013 stanowi tak\u017ce klucz do ich kontroli. Cz\u0119sto gdy m\u00f3wimy o Explainable AI, my\u015blimy o analizowaniu, dla- czego model pope\u0142nia b\u0142\u0119dy \u2013 dlaczego dyskryminuje, dlaczego konfabuluje, dlaczego generuje szkodliwe tre\u015bci. Ale w przypadku LLM-\u00f3w r\u00f3wnie wa\u017cne \u2013 je\u015bli nie wa\u017cniejsze \u2013 jest ostatecznie skuteczne zarz\u0105dza- nie tym, jak model si\u0119 zachowuje. Wyobra\u017amy sobie system AI u\u017cywany w automatycznej moderacji tre\u015bci. Samo zrozumienie, dlaczego model oznacza pewne komentarze jako szkodliwe, jest cenne, ale niewystarczaj\u0105ce. Kluczowe jest to, czy mo\u017cemy ten model do- stroi\u0107 tak, by robi\u0142 to w spos\u00f3b przewidywalny i zgodny z naszymi celami.<\/p><p>Podobnie w przypadku konfabulacji \u2013 wiemy, \u017ce modele j\u0119zykowe \u201ehalucynuj\u0105\u201d, ale zamiast jedynie analizowa\u0107, dlaczego to robi\u0105, powinni\u015bmy szuka\u0107 metod na ich ograniczanie, wykrywanie lub przynajmniej oznaczanie w czasie rzeczywistym. W praktyce, szczeg\u00f3lnie biznesowej, samo wyja\u015bnienie genezy b\u0142\u0119du nie wystarczy, nie zniweluje jego konsekwencji. Gdy model LLM traktuje si\u0119 jak wyszukiwark\u0119 informacji medycznych, konfabulacja jest bardzo szkodliwa. Ale gdy wykorzystuje si\u0119 go jako wsparcie w przygotowaniu opowiadania science fiction, wi\u0119ksza kreatywno\u015b\u0107 kosztem mniejszej poprawno\u015bci nie b\u0119dzie nas razi\u0142a, a mo\u017ce nawet oka\u017ce si\u0119 zalet\u0105.<\/p><p>Je\u015bli nie mamy kontroli nad AI, to tak, jakby\u015bmy sterowali samolotem bez mo\u017cliwo\u015bci korekty kursu \u2013 wiemy, jak dzia\u0142a autopilot, ale nie mo\u017cemy go zatrzyma\u0107, gdy leci w z\u0142\u0105 stron\u0119. Dlatego wyja\u015bnialno\u015b\u0107 w LLM-ach to co\u015b wi\u0119cej ni\u017c analiza \u2013 to spos\u00f3b na realne zarz\u0105dzanie ryzykiem i popraw\u0119 bezpiecze\u0144stwa tych system\u00f3w.<\/p><p><strong>IO: A mo\u017cesz opowiedzie\u0107 z w\u0142asnego do\u015bwiadczenia, jak w takim razie kontrolowa\u0107 modele LLM?<\/strong><\/p><p><strong>PB: <\/strong>Rozwijamy r\u00f3\u017cne metody, kt\u00f3re mog\u0105 by\u0107 za- stosowane do wi\u0119kszej kontroli modeli. Trudno przewidzie\u0107, kt\u00f3ra si\u0119 upowszechni, ale moim zdaniem dzisiaj najbardziej obiecuj\u0105ce s\u0105 tzw. rzadkie autoenkodery [sparse autoencoders; metoda opisana w tym numerze w artykule Pauliny Tomaszewskiej \u2013 przyp. red.]. Polegaj\u0105 one na \u201ew\u0142o\u017ceniu\u201d do modelu specjalnej nak\u0142adki, kt\u00f3ra rozk\u0142ada jego dzia\u0142anie na tysi\u0105ce r\u00f3\u017cnych koncept\u00f3w. Mo\u017cemy p\u00f3\u017aniej znajdowa\u0107 interesuj\u0105ce nas koncepty, np. odpowiadaj\u0105ce za agresj\u0119 w odpowiedziach, nat\u0119\u017cenie emocjonalne itp., a nast\u0119pnie t\u0142umi\u0107 lub wzmacnia\u0107 okre\u015blone koncepty i odpowiadaj\u0105ce im cz\u0119\u015bci modelu. Je\u017celi chcemy mie\u0107 model generuj\u0105cy odpowiedzi bez j\u0119zyka nienawi\u015bci, to szukamy koncept\u00f3w zwi\u0105zanych z mow\u0105 nienawi\u015bci i je wy\u0142\u0105czamy. A gdy ten sam model chcemy stosowa\u0107 do filtrowania komentarzy w mediach spo\u0142eczno\u015bciowych, zwi\u0119kszamy jego czu\u0142o\u015b\u0107 na tego rodzaju koncepty.<\/p><p><strong>IO: A je\u015bli to one na nas pr\u00f3buj\u0105 wp\u0142ywa\u0107 swoimi wypowiedziami? Powiedzmy sobie szczerze: retorycznie s\u0105 przecie\u017c naprawd\u0119 zaskakuj\u0105co sprawne.<\/strong><\/p><p><strong>PB:<\/strong> No w\u0142a\u015bnie, bardzo interesuj\u0105cym aspektem tych modeli, wynikaj\u0105cym wprost ze sposobu ich trenowania, jest kwestia perswazyjno\u015bci. W\u0142a\u015bnie sko\u0144czyli\u015bmy badania nad tym, jak du\u017ce modele j\u0119zykowe (LLM-y) dostosowuj\u0105 swoje odpowiedzi, aby wp\u0142ywa\u0107 na u\u017cytkownik\u00f3w o r\u00f3\u017cnych cechach osobowo\u015bci. Badali\u015bmy kluczowe cechy lingwistyczne, istotne w perswazji skierowanej do os\u00f3b o zr\u00f3\u017cnicowanych poziomach tych cech. Por\u00f3wnali\u015bmy 19 r\u00f3\u017cnych modeli LLM pod k\u0105tem ich mo\u017cliwo\u015bci dostosowania si\u0119 do osobowo\u015bci rozm\u00f3wcy w celu zwi\u0119kszenia ich perswazyjno\u015bci. Wyniki wskazuj\u0105, \u017ce modele u\u017cywaj\u0105 wi\u0119cej s\u0142\u00f3w zwi\u0105zanych z l\u0119kiem, gdy wyczuj\u0105 odbiorc\u0119 neurotycznego, rozbudowuj\u0105 j\u0119zyk sukcesu w przypadku osoby sumiennej, a tak- \u017ce ograniczaj\u0105 lub wzbogacaj\u0105 s\u0142ownictwo z zakresu proces\u00f3w poznawczych w zale\u017cno\u015bci od otwarto\u015bci na do\u015bwiadczenia u\u017cytkownika. Niekt\u00f3re rodziny modeli lepiej dostosowuj\u0105 j\u0119zyk do jednego typu, inne do drugiego, podczas gdy tylko jedna rodzina modeli adaptuje j\u0119zyk w zakresie neurotyczno\u015bci. Okazuje si\u0119, \u017ce LLM-y potrafi\u0105 dostosowywa\u0107 swoje odpowiedzi na podstawie wskaz\u00f3wek dotycz\u0105cych osobowo\u015bci w promptach, co wskazuje na ich potencja\u0142 tworzenia perswazyjnych tre\u015bci wp\u0142ywaj\u0105cych na umys\u0142 i dobrostan odbiorc\u00f3w. Cz\u0119sto my\u015blimy o modelach LLM jak o du\u017cych wyszukiwarkach, ale w rzeczywisto\u015bci s\u0105 to szalenie skuteczne narz\u0119dzia perswazji.<\/p><p><strong>IO: Je\u015bli nie powia\u0142o groz\u0105, to na pewno lekkim zaskoczeniem. Skoro wci\u0105\u017c trzeba uwa\u017ca\u0107 na tyle pu\u0142apek w kontek\u015bcie wsp\u00f3\u0142czesnych modeli AI, to czy powiedzia\u0142by\u015b, \u017ce jest za wcze\u015bnie, by z czystym sumieniem wdra\u017ca\u0107 je w firmach?<\/strong><\/p><p><strong>PB<\/strong>: Nie, to troch\u0119 jak z samochodami \u2013 nie prze- stajemy z nich korzysta\u0107 tylko dlatego, \u017ce mog\u0105 si\u0119 zepsu\u0107. Zamiast tego inwestujemy raczej w pasy bezpiecze\u0144stwa, systemy ABS i kontrol\u0119 jako\u015bci. Podobnie z AI \u2013 zamiast rezygnowa\u0107, powinni\u015bmy po prostu rozwija\u0107 lepsze metody nadzoru i wyja\u015bnialno\u015bci, globalnie nie szcz\u0119dzi\u0107 na to ani zasob\u00f3w intelektualnych, ani finansowych.<\/p><p>Badacze z mojego zespo\u0142u MI2.AI od wielu lat do- wodz\u0105, \u017ce modele mog\u0105 by\u0107 nie tylko czarnymi skrzynkami, \u017ce da si\u0119 je interpretowa\u0107 i nad nimi panowa\u0107. Ich prace nad wyja\u015bnialno\u015bci\u0105 modeli pokazuj\u0105, \u017ce transparentno\u015b\u0107 i kontrola sztucznej inteligencji to nie tylko teoria \u2013 to co\u015b, co ju\u017c si\u0119 dzieje i mo\u017ce sprawi\u0107, \u017ce technologie b\u0119d\u0105 bezpieczniejsze. Wi\u0119c zamiast pyta\u0107: \u201eCzy powinni\u015bmy u\u017cywa\u0107 AI?\u201d, lepiej zapyta\u0107: \u201eJak sprawi\u0107, by by\u0142a bezpieczna i pod nasz\u0105 kontrol\u0105?\u201d.<\/p>","protected":false},"excerpt":{"rendered":"<p>Inez Okulska: Bezpiecze\u0144stwo w kontek\u015bcie sztucznej inteligencji jest odmieniane przez wszystkie przypadki. I wielcy gracze, i pocz\u0105tkuj\u0105cy entuzja\u015bci coraz cz\u0119\u015bciej czuj\u0105, \u017ce te dwa poj\u0119cia, cho\u0107 nie zawsze \u0142atwe do pogodzenia (patrz: huczne zwolnienia w big techach w\u0142a\u015bnie na tym polu), musz\u0105 jednak i\u015b\u0107 rami\u0119 w rami\u0119. Czy ryzyko to wada jedynie z\u0142ych modeli, czy [&hellip;]<\/p>\n","protected":false},"author":46,"featured_media":9670,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"_acf_changed":false,"rank_math_lock_modified_date":false,"footnotes":""},"categories":[612,756,757,402,754],"tags":[83,170,152],"popular":[],"difficulty-level":[36],"ppma_author":[364,343],"class_list":["post-9295","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-numer-4","category-ai_branza","category-bezpieczenstwo-pl","category-hai-magazine","category-hai_premium","tag-ai","tag-bezpieczenstwo","tag-sztuczna-inteligencja","difficulty-level-easy"],"acf":[],"authors":[{"term_id":364,"user_id":46,"is_guest":0,"slug":"prof-przemyslaw-biecek","display_name":"prof. Przemys\u0142aw Biecek","avatar_url":{"url":"https:\/\/haimagazine.com\/wp-content\/uploads\/2024\/08\/prof.-Przemyslaw-Biecek.jpeg","url2x":"https:\/\/haimagazine.com\/wp-content\/uploads\/2024\/08\/prof.-Przemyslaw-Biecek.jpeg"},"first_name":"Przemys\u0142aw","last_name":"Biecek","user_url":"","job_title":"","description":"Profesor Uniwersytetu Warszawskiego i Politechniki Warszawskiej. Prowadzi grup\u0119 badawcz\u0105 MI2.AI i projekt BeatBit popularyzuj\u0105cy my\u015blenie oparte na danych."},{"term_id":343,"user_id":5,"is_guest":0,"slug":"inez-okulska","display_name":"dr Inez Okulska","avatar_url":"https:\/\/secure.gravatar.com\/avatar\/479f0f5551a6bf974825e84cfe39166b785e5cd476e583be6a22279c2c379917?s=96&d=mm&r=g","first_name":"dr Inez","last_name":"Okulska","user_url":"","job_title":"","description":"Redaktor naczelna hAI Magazine, badaczka i wsp\u00f3\u0142autorka modeli AI (StyloMetrix, PLLuM), wyk\u0142adowczyni, Top100 Woman in AI in PL"}],"_links":{"self":[{"href":"https:\/\/haimagazine.com\/pl\/wp-json\/wp\/v2\/posts\/9295","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/haimagazine.com\/pl\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/haimagazine.com\/pl\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/haimagazine.com\/pl\/wp-json\/wp\/v2\/users\/46"}],"replies":[{"embeddable":true,"href":"https:\/\/haimagazine.com\/pl\/wp-json\/wp\/v2\/comments?post=9295"}],"version-history":[{"count":7,"href":"https:\/\/haimagazine.com\/pl\/wp-json\/wp\/v2\/posts\/9295\/revisions"}],"predecessor-version":[{"id":9695,"href":"https:\/\/haimagazine.com\/pl\/wp-json\/wp\/v2\/posts\/9295\/revisions\/9695"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/haimagazine.com\/pl\/wp-json\/wp\/v2\/media\/9670"}],"wp:attachment":[{"href":"https:\/\/haimagazine.com\/pl\/wp-json\/wp\/v2\/media?parent=9295"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/haimagazine.com\/pl\/wp-json\/wp\/v2\/categories?post=9295"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/haimagazine.com\/pl\/wp-json\/wp\/v2\/tags?post=9295"},{"taxonomy":"popular","embeddable":true,"href":"https:\/\/haimagazine.com\/pl\/wp-json\/wp\/v2\/popular?post=9295"},{"taxonomy":"difficulty-level","embeddable":true,"href":"https:\/\/haimagazine.com\/pl\/wp-json\/wp\/v2\/difficulty-level?post=9295"},{"taxonomy":"author","embeddable":true,"href":"https:\/\/haimagazine.com\/pl\/wp-json\/wp\/v2\/ppma_author?post=9295"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}