{"id":3397,"date":"2024-08-29T17:01:24","date_gmt":"2024-08-29T17:01:24","guid":{"rendered":"https:\/\/haimagazine.com\/?p=3397"},"modified":"2025-06-26T14:10:59","modified_gmt":"2025-06-26T12:10:59","slug":"ciezki-trening-widoczne-efekty-jak-w-zgodzie-z-przepisami-wzmocnic-model-dobrymi-danymi","status":"publish","type":"post","link":"https:\/\/haimagazine.com\/pl\/hai-magazine\/ciezki-trening-widoczne-efekty-jak-w-zgodzie-z-przepisami-wzmocnic-model-dobrymi-danymi\/","title":{"rendered":"Ci\u0119\u017cki trening, widoczne efekty. Dobre dane a prawo"},"content":{"rendered":"<p class=\"wp-block-paragraph\">W nauce o danych jak mantr\u0119 powtarza si\u0119, \u017ce \u015bmieciowe dane to \u015bmieciowe rezultaty (ang. <em>garbage in, garbage out)<\/em>, a \u015bmieciowe rezultaty to ryzyko dla podmiotu, kt\u00f3ry wykorzystuje model w ramach tzw. systemu sztucznej inteligencji. Ale niestety ju\u017c samo zebranie danych jest procesem nie\u0142atwym, a im dalej w las, tym wyzwa\u0144 pojawia si\u0119 tylko wi\u0119cej. Skoro jednak m\u00f3wi si\u0119, \u017ce no pain, no gain, to trzeba prze\u0142kn\u0105\u0107 gorzk\u0105 pigu\u0142k\u0119 i wzi\u0105\u0107 si\u0119 do pracy, je\u017celi nasz model ma przynie\u015b\u0107 wymierne i realne rezultaty.<\/p><p class=\"wp-block-paragraph\">Systemy sztucznej inteligencji doczeka\u0142y si\u0119 definicji, kt\u00f3ra zosta\u0142a zaprezentowana w ramach rozporz\u0105dzenia w sprawie sztucznej inteligencji (AI Act), kt\u00f3ry ma szans\u0119 wej\u015b\u0107 w \u017cycie w najbli\u017cszych miesi\u0105cach. Definicja nie nale\u017cy do najlepszych i mo\u017ce rodzi\u0107 wiele w\u0105tpliwo\u015bci, ale zawsze to jaki\u015b pocz\u0105tek. O systemach sztucznej inteligencji pisz\u0119 tutaj nie bez przyczyny \u2013 nie s\u0105 one to\u017csame z modelami, ale ich cykl \u017cycia w wielu miejscach si\u0119 pokrywa, co jest niezb\u0119dne dla naszych dalszych rozwa\u017ca\u0144.<\/p><p class=\"wp-block-paragraph\">Jednym z element\u00f3w budowania modelu jest jego trenowanie, kt\u00f3re AI Act definiuje jako proces dopasowywania parametr\u00f3w systemu, wyszukiwania wzorc\u00f3w i zale\u017cno\u015bci, kt\u00f3re potem b\u0119dziemy mogli wykorzystywa\u0107 do swoistego \u201escoringu\u201d. Proces ten wi\u0105\u017ce si\u0119 z konieczno\u015bci\u0105 przygoto- wania danych treningowych, kt\u00f3re musz\u0105 by\u0107 odpowiedniej jako\u015bci, wyst\u0119powa\u0107 w okre\u015blonej ilo\u015bci (rozmiarze), a tak\u017ce spe\u0142nia\u0107 standardy prawne i regulacyjne. Dob\u00f3r danych treningowych ma kluczowe znaczenie, bo od nich zale\u017cy sukces naszego projektu. Jako\u015b\u0107 ma znaczenie, cho\u0107 samo okre\u015blenie, czym s\u0105 dane jako\u015bciowo dobre, mo\u017ce przysparza\u0107 nieco problem\u00f3w. Ka\u017cda organizacja powinna zapewni\u0107, np. na poziomie odpowiedniej polityki, zestaw zasad, kt\u00f3rymi b\u0119dzie si\u0119 kiero- wa\u0142a, dobieraj\u0105c dane do konkretnych rozwi\u0105za\u0144. Jest to element szerszego zagadnienia, jakim jest Data Governance, czyli swoisty \u0142ad dla danych. Jego wdro\u017cenie dla wielu organizacji b\u0119dzie \u201enie do przej\u015bcia\u201d, bo wymaga uporz\u0105dkowania wielu spraw, w tym organizacji oraz infrastruktury, kt\u00f3r\u0105 wykorzystujemy do tworzenia unikatowej warto\u015bci z u\u017cyciem AI. Je\u017celi chcemy m\u00f3c si\u0119 rzeczywi\u015bcie okre\u015bla\u0107 mianem \u201enap\u0119dzanych danymi\u201d (ang. data-driven), od budowania Data Governance nie uciekniemy.<\/p><p class=\"wp-block-paragraph\">Skupmy si\u0119 na obszarze prawno-regulacyjnym, kt\u00f3ry b\u0119dzie mia\u0142 prze\u0142o\u017cenie na to, czy projekt zostanie zrealizowany. Nie chcieliby\u015bmy przecie\u017c, aby inspektor ochrony danych czy prawnik z dzia\u0142u wsparcia zablokowa\u0142 nasz pomys\u0142, kt\u00f3ry mo\u017ce zrewolucjonizowa\u0107 model biznesowy, prawda?<\/p><p class=\"wp-block-paragraph\">Na pierwszy rzut oka mo\u017ce nam si\u0119 wydawa\u0107, \u017ce \u201egdzie tutaj problemy prawne, przecie\u017c mam dane, a wi\u0119c mog\u0119 je wykorzysta\u0107\u201d. I tak, i nie. Je\u017celi mamy przekonanie, \u017ce dane s\u0105 rzeczywi\u015bcie \u201enasze\u201d \u2013 nie naruszaj\u0105 praw os\u00f3b trzecich \u2013 to by\u0107 mo\u017ce sprawa jest czysta. Rzeczywisto\u015b\u0107 jest jednak zazwyczaj o wiele barwniejsza, a przez to jakie\u015b ograniczenia z pewno\u015bci\u0105 si\u0119 pojawi\u0105. Sp\u00f3jrzmy np. danych, kt\u00f3re zebrali\u015bmy z naszych system\u00f3w transakcyjnych, i kt\u00f3re dotycz\u0105 naszych klient\u00f3w \u2013 ich \u015bredniego czasu przebywania na stronie internetowej, lokalizacji, cech pozwalaj\u0105cych na profilowanie, zakup\u00f3w, kt\u00f3re zrobili w naszym sklepie. Dane te przechowujemy w mniej lub bardziej \u201euporz\u0105dkowanej\u201d bazie danych, by\u0107 mo\u017ce wykorzystujemy CRM. Na bazie tych danych chcemy zamodelowa\u0107 to, co wp\u0142ywa na decyzj\u0119 klienta, \u017ceby kupi\u0107 akurat ten konkretny produkt.<\/p><p class=\"wp-block-paragraph\">Bierzemy wi\u0119c dane z bazy i trenujemy model. Proste? Niestety zak\u0142adaj\u0105c, \u017ce pojawiaj\u0105 si\u0119 tam dane osobowe naszych klient\u00f3w, napotykamy pierwsze problemy. Sytuacja jest w miar\u0119 \u201eczysta\u201d, je\u017celi dane te zanonimizujemy (chocia\u017c warto pami\u0119ta\u0107, \u017ce dla ca\u0142kowitej pewno\u015bci warto sprawdzi\u0107 r\u0119cznie wyniki automatycznej anonimizacji), ale przetwarzanie danych osobowych wi\u0105\u017ce si\u0119 z obowi\u0105zkami. Aby to zrobi\u0107, musimy mie\u0107 odpowiedni\u0105 podstaw\u0119 prawn\u0105, okre\u015blony cel przetwarzania, zrealizowa\u0107 obowi\u0105zki informacyjne i upewni\u0107 si\u0119, \u017ce wszystko odbywa si\u0119 w zgodzie z zasadami okre\u015blonymi w art. 5 RODO (to temat na inn\u0105 rozmow\u0119). Czasem przed przetwarzaniem danych b\u0119dziemy musieli dokona\u0107 oceny skutk\u00f3w dla ochrony danych, a wi\u0119c zwa\u017cy\u0107 ryzyko, kt\u00f3re wi\u0105\u017ce si\u0119 z takim dzia\u0142aniem. Sam fakt, \u017ce mamy dane \u201e\u015bci\u0105gni\u0119te\u201d z naszego systemu, nie oznacza, \u017ce mo\u017cemy te dane swobodnie wykorzysta\u0107 do trenowania. Diabe\u0142 tkwi (niestety) w szczeg\u00f3\u0142ach. Oczywi\u015bcie przepisy nie s\u0105 bezwzgl\u0119dne i daj\u0105 pewn\u0105 elastyczno\u015b\u0107, ale upewnienie si\u0119, \u017ce nie naruszamy RODO, powinno by\u0107 naszym priorytetem. Nawet je\u017celi na my\u015bl o spotkaniu z \u201etymi od RODO\u201d w\u0142osy staj\u0105 nam d\u0119ba. Ca\u0142kiem niedawno francuski organ ochrony danych opublikowa\u0142 AI Factsheets, kt\u00f3re na kilkudziesi\u0119ciu stronach t\u0142umacz\u0105, o co w tym wszystkim chodzi.<\/p><p class=\"wp-block-paragraph\">Czasem dane nie s\u0105 nasze. Kupili\u015bmy je od po\u015brednika (np. brokera danych), a wi\u0119c konieczne b\u0119dzie przejrzenie umowy, kt\u00f3ra mo\u017ce zawiera\u0107 pewne ograniczenia \u2013 dane mog\u0105 by\u0107 na licencji i nie by\u0107 przez to nasz\u0105 w\u0142asno\u015bci\u0105. Ograniczenia mog\u0105 dotyczy\u0107 np. tego, do jakich cel\u00f3w mo\u017cemy lub nie mo\u017cemy ich wykorzysta\u0107.<\/p><p class=\"wp-block-paragraph\">Dane mog\u0105 by\u0107 te\u017c chronione prawami autorskimi, a wtedy zaczyna si\u0119 prawdziwa \u201ejazda\u201d. Dzisiaj przepisy z zakresu praw w\u0142asno\u015bci intelektualnej s\u0105 mocno niejasne w kontek\u015bcie system\u00f3w sztucznej inteligencji i nie ma jasno\u015bci, jak podchodzi\u0107 do ochrony w sytuacji, w kt\u00f3rej system wygenerowa\u0142 \u201eco\u015b\u201d, inspiruj\u0105c si\u0119 np. obrazami znanego artysty, kt\u00f3ry zgody na to nie udzieli\u0142. Na poziomie Unii Europejskiej, ale i krajowym tworzone s\u0105 obecnie rozwi\u0105zania, kt\u00f3re maj\u0105 te kwestie uporz\u0105dkowa\u0107, ale b\u0105d\u017amy szczerzy \u2013 liczba zagadnie\u0144 powoduje,<\/p><p class=\"wp-block-paragraph\">\u017ce b\u0119dzie trudno je wszystkie zaadresowa\u0107. Wci\u0105\u017c bardzo istotna jest jednak weryfikacja, czy mo\u017cemy jaki\u015b zbi\u00f3r (tak\u017ce ten w ramach modeli og\u00f3lnego przeznaczenia) wykorzysta\u0107. Pami\u0119tajmy przy tym, \u017ce w tym miejscu mog\u0105 pojawi\u0107 si\u0119 kwestie zwi\u0105zane z ochron\u0105 wizerunku i ewentualn\u0105 odpowiedzialno\u015bci\u0105 z tego tytu\u0142u.<\/p><p class=\"wp-block-paragraph\">Wreszcie jest AI Act, kt\u00f3ry niebawem \u2013 wszystko na to wskazuje \u2013 stanie si\u0119 obowi\u0105zuj\u0105cym prawem i przynajmniej dla cz\u0119\u015bci dostawc\u00f3w i wdra\u017caj\u0105cych sporym wyzwaniem. Pisz\u0119 o tym akcie prawnym dlatego, \u017ce wprowadzi on w niekt\u00f3rych sytuacjach konieczno\u015b\u0107 spe\u0142nienia wymog\u00f3w dla danych treningowych, walidacyjnych i testowych. Przyk\u0142adowo przy systemach wysokiego ryzyka b\u0119dzie konieczno\u015b\u0107, aby zbiory takie by\u0142y opracowywane w zgodzie z okre\u015blonymi praktykami. Zwr\u00f3c\u0119 tutaj uwag\u0119 na art. 10 ust. 3, kt\u00f3ry stanowi, \u017ce:<\/p><blockquote class=\"wp-block-quote is-layout-flow wp-block-quote-is-layout-flow\"><p class=\"wp-block-paragraph\"><strong>\u201ezbiory danych treningowych, walidacyjnych i testowych musz\u0105 by\u0107 adekwatne, wystarczaj\u0105co reprezentatywne oraz<br>w jak najwi\u0119kszym stopniu wolne od b\u0142\u0119d\u00f3w i kompletne z punktu widzenia przeznaczenia. Musz\u0105 si\u0119 one charakteryzowa\u0107 odpowiednimi w\u0142a\u015bciwo\u015bciami statystycznymi, w tym, w stosownych przypadkach, w odniesieniu do os\u00f3b lub grup os\u00f3b, wobec kt\u00f3rych ma by\u0107 stosowany system AI wysokiego ryzyka. Te kryteria zbior\u00f3w danych mog\u0105 zosta\u0107 spe\u0142nione na poziomie pojedynczych zbior\u00f3w danych lub na poziomie ich kombinacji\u201d.<\/strong><\/p><\/blockquote><p class=\"wp-block-paragraph\">To b\u0119dzie naprawd\u0119 ci\u0119\u017cki kawa\u0142ek chleba, a powiem tylko, \u017ce to nie wszystko. Rygorystyczne wymogi pojawi\u0105 si\u0119 np. w odniesieniu do modeli og\u00f3lnego przeznaczenia (takich jak modele GPT).<\/p><p class=\"wp-block-paragraph\">Te kwestie sprowadzaj\u0105 nas tak\u017ce do wa\u017cnego zagadnienia etyki AI, czyli koncepcji odpowiedzialnej (ang. responsible) czy godnej zaufania (ang. <em>trustworthy<\/em>) sztucznej inteligencji, kt\u00f3rej wa\u017cnym elementem jest fokus na dane. W my\u015bl tego, \u017ce \u201emog\u0119\u201d, nie zawsze znaczy \u201epowinienem\u201d. Bo czasem sam fakt posiadania podstawy prawnej do wykorzystania danych nie jest wystarczaj\u0105cym czynnikiem decyzyjnym. Do tego potrzeba nie tylko katalogu warto\u015bci i zasad, lecz tak\u017ce operacjonali- zacji na poziomie organizacji.<\/p><p class=\"wp-block-paragraph\">Dodatkowe wymagania wzgl\u0119dem wykorzystywa- nych danych mog\u0105 pojawi\u0107 si\u0119 ze strony organ\u00f3w regulacyjnych, kt\u00f3re nadzoruj\u0105 niekt\u00f3re rynki. Przyk\u0142adowo, je\u017celi jeste\u015bmy bankiem, to Komisja Nadzoru Finansowego b\u0119dzie od nas wymaga\u0107 spe\u0142nienia obowi\u0105zk\u00f3w w zakresie infrastruktury danych (Rekomendacja D) czy modeli (Rekomendacje J i W).<\/p><p class=\"wp-block-paragraph\">Jak wi\u0119c podej\u015b\u0107 do zapewnienia zgodno\u015bci z obowi\u0105zuj\u0105cymi przepisami prawa (ang. compliance) na poziomie organizacji? Wiele zale\u017cy od skali wykorzystania danych, ale poniewa\u017c wi\u0119k- szo\u015b\u0107 podmiot\u00f3w chce znale\u017a\u0107 si\u0119 w czo\u0142\u00f3wce w tym zakresie, to bez pewnych rozwi\u0105za\u0144 trudno b\u0119dzie si\u0119 obej\u015b\u0107.<\/p><p class=\"wp-block-paragraph\">Ca\u0142kiem dobrym kierunkiem b\u0119dzie zajrzenie do normy ISO 42001:2023 (AI Governance), kt\u00f3ra okre\u015bla nam zasady zarz\u0105dzania AI w organizacji. Znajdziemy tam wskaz\u00f3wki, co do tego, jak stworzy\u0107 odpowiedni system zarz\u0105dzania obejmuj\u0105cy polityki, procedury, ale tak\u017ce dokumentacj\u0119 techniczn\u0105, kt\u00f3ra b\u0119dzie mia\u0142a tutaj istotne znaczenie. Je\u017celi nie mamy w organizacji zasad dla Data Governance, to pomy\u015blmy chocia\u017c o kartach danych, kt\u00f3re u\u0142atwi\u0105 nam pozyskiwanie metadanych istotnych z perspektywy oceny zgodno\u015bci. Zacznijmy tworzy\u0107 kultur\u0119 organizacji, nakierowanej na branie odpowiedzialno\u015bci za dane, a tak\u017ce pomy\u015blmy o odpowiednim systemie zarz\u0105dzania ryzykami AI, bo jednym z tych ryzyk jest ryzyko danych (ma szerokie znaczenie).<\/p><p class=\"wp-block-paragraph\">Musimy tak\u017ce u\u015bwiadomi\u0107 sobie, \u017ce spojrzenie na dane z perspektywy zgodno\u015bci z prawem i regulacjami nie musi oznacza\u0107 tworzenia dodatkowych barier. Dane mo\u017cna wykorzystywa\u0107, ale trzeba robi\u0107 to umiej\u0119tnie i w spos\u00f3b nienaruszaj\u0105cy praw os\u00f3b trzecich. Niekiedy b\u0119dzie to kosztowny proces, ale jego wdro\u017cenie zmniejszy nam ryzyko ewentualnej odpowiedzialno\u015bci zewn\u0119trznej, zar\u00f3wno cywilnej, jak i administracyjnej.<\/p>","protected":false},"excerpt":{"rendered":"<p>Dobry model sztucznej inteligencji bazuje na dobrych danych. Tylko jak w zgodzie z przepisami wzmocni\u0107 model dobrymi danymi?<\/p>\n","protected":false},"author":43,"featured_media":3398,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"_acf_changed":false,"rank_math_lock_modified_date":false,"footnotes":""},"categories":[402,756,754,403,761],"tags":[475,474],"popular":[],"difficulty-level":[38],"ppma_author":[370],"class_list":["post-3397","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-hai-magazine","category-ai_branza","category-hai_premium","category-hai-magazine-1","category-prawo_etyka","tag-dane","tag-prawo","difficulty-level-medium"],"acf":[],"authors":[{"term_id":370,"user_id":43,"is_guest":0,"slug":"dr-michal-nowakowski","display_name":"dr Micha\u0142 Nowakowski","avatar_url":{"url":"https:\/\/haimagazine.com\/wp-content\/uploads\/2024\/08\/Michal-Nowakowski.jpeg","url2x":"https:\/\/haimagazine.com\/wp-content\/uploads\/2024\/08\/Michal-Nowakowski.jpeg"},"first_name":"Micha\u0142","last_name":"Nowakowski","user_url":"","job_title":"","description":"Partner odpowiedzialny za AI &amp; CyberSec w ZP Zackiewicz &amp; Partners, CEO w GovernedAI. "}],"_links":{"self":[{"href":"https:\/\/haimagazine.com\/pl\/wp-json\/wp\/v2\/posts\/3397","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/haimagazine.com\/pl\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/haimagazine.com\/pl\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/haimagazine.com\/pl\/wp-json\/wp\/v2\/users\/43"}],"replies":[{"embeddable":true,"href":"https:\/\/haimagazine.com\/pl\/wp-json\/wp\/v2\/comments?post=3397"}],"version-history":[{"count":4,"href":"https:\/\/haimagazine.com\/pl\/wp-json\/wp\/v2\/posts\/3397\/revisions"}],"predecessor-version":[{"id":3778,"href":"https:\/\/haimagazine.com\/pl\/wp-json\/wp\/v2\/posts\/3397\/revisions\/3778"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/haimagazine.com\/pl\/wp-json\/wp\/v2\/media\/3398"}],"wp:attachment":[{"href":"https:\/\/haimagazine.com\/pl\/wp-json\/wp\/v2\/media?parent=3397"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/haimagazine.com\/pl\/wp-json\/wp\/v2\/categories?post=3397"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/haimagazine.com\/pl\/wp-json\/wp\/v2\/tags?post=3397"},{"taxonomy":"popular","embeddable":true,"href":"https:\/\/haimagazine.com\/pl\/wp-json\/wp\/v2\/popular?post=3397"},{"taxonomy":"difficulty-level","embeddable":true,"href":"https:\/\/haimagazine.com\/pl\/wp-json\/wp\/v2\/difficulty-level?post=3397"},{"taxonomy":"author","embeddable":true,"href":"https:\/\/haimagazine.com\/pl\/wp-json\/wp\/v2\/ppma_author?post=3397"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}