Ciężki trening, widoczne efekty. Dobre dane a prawo

Dobry model sztucznej inteligencji bazuje na dobrych danych. Tylko jak w zgodzie z przepisami wzmocnić model dobrymi danymi?

W nauce o danych jak mantrę powtarza się, że śmieciowe dane to śmieciowe rezultaty (ang. garbage in, garbage out), a śmieciowe rezultaty to ryzyko dla podmiotu, który wykorzystuje model w ramach tzw. systemu sztucznej inteligencji. Ale niestety już samo zebranie danych jest procesem niełatwym, a im dalej w las, tym wyzwań pojawia się tylko więcej. Skoro jednak mówi się, że no pain, no gain, to trzeba przełknąć gorzką pigułkę i wziąć się do pracy, jeżeli nasz model ma przynieść wymierne i realne rezultaty.

Systemy sztucznej inteligencji doczekały się definicji, która została zaprezentowana w ramach rozporządzenia w sprawie sztucznej inteligencji (AI Act), który ma szansę wejść w życie w najbliższych miesiącach. Definicja nie należy do najlepszych i może rodzić wiele wątpliwości, ale zawsze to jakiś początek. O systemach sztucznej inteligencji piszę tutaj nie bez przyczyny – nie są one tożsame z modelami, ale ich cykl życia w wielu miejscach się pokrywa, co jest niezbędne dla naszych dalszych rozważań.

Jednym z elementów budowania modelu jest jego trenowanie, które AI Act definiuje jako proces dopasowywania parametrów systemu, wyszukiwania wzorców i zależności, które potem będziemy mogli wykorzystywać do swoistego „scoringu”. Proces ten wiąże się z koniecznością przygoto- wania danych treningowych, które muszą być odpowiedniej jakości, występować w określonej ilości (rozmiarze), a także spełniać standardy prawne i regulacyjne. Dobór danych treningowych ma kluczowe znaczenie, bo od nich zależy sukces naszego projektu. Jakość ma znaczenie, choć samo określenie, czym są dane jakościowo dobre, może przysparzać nieco problemów. Każda organizacja powinna zapewnić, np. na poziomie odpowiedniej polityki, zestaw zasad, którymi będzie się kiero- wała, dobierając dane do konkretnych rozwiązań. Jest to element szerszego zagadnienia, jakim jest Data Governance, czyli swoisty ład dla danych. Jego wdrożenie dla wielu organizacji będzie „nie do przejścia”, bo wymaga uporządkowania wielu spraw, w tym organizacji oraz infrastruktury, którą wykorzystujemy do tworzenia unikatowej wartości z użyciem AI. Jeżeli chcemy móc się rzeczywiście określać mianem „napędzanych danymi” (ang. data-driven), od budowania Data Governance nie uciekniemy.

Skupmy się na obszarze prawno-regulacyjnym, który będzie miał przełożenie na to, czy projekt zostanie zrealizowany. Nie chcielibyśmy przecież, aby inspektor ochrony danych czy prawnik z działu wsparcia zablokował nasz pomysł, który może zrewolucjonizować model biznesowy, prawda?

Na pierwszy rzut oka może nam się wydawać, że „gdzie tutaj problemy prawne, przecież mam dane, a więc mogę je wykorzystać”. I tak, i nie. Jeżeli mamy przekonanie, że dane są rzeczywiście „nasze” – nie naruszają praw osób trzecich – to być może sprawa jest czysta. Rzeczywistość jest jednak zazwyczaj o wiele barwniejsza, a przez to jakieś ograniczenia z pewnością się pojawią. Spójrzmy np. danych, które zebraliśmy z naszych systemów transakcyjnych, i które dotyczą naszych klientów – ich średniego czasu przebywania na stronie internetowej, lokalizacji, cech pozwalających na profilowanie, zakupów, które zrobili w naszym sklepie. Dane te przechowujemy w mniej lub bardziej „uporządkowanej” bazie danych, być może wykorzystujemy CRM. Na bazie tych danych chcemy zamodelować to, co wpływa na decyzję klienta, żeby kupić akurat ten konkretny produkt.

Bierzemy więc dane z bazy i trenujemy model. Proste? Niestety zakładając, że pojawiają się tam dane osobowe naszych klientów, napotykamy pierwsze problemy. Sytuacja jest w miarę „czysta”, jeżeli dane te zanonimizujemy (chociaż warto pamiętać, że dla całkowitej pewności warto sprawdzić ręcznie wyniki automatycznej anonimizacji), ale przetwarzanie danych osobowych wiąże się z obowiązkami. Aby to zrobić, musimy mieć odpowiednią podstawę prawną, określony cel przetwarzania, zrealizować obowiązki informacyjne i upewnić się, że wszystko odbywa się w zgodzie z zasadami określonymi w art. 5 RODO (to temat na inną rozmowę). Czasem przed przetwarzaniem danych będziemy musieli dokonać oceny skutków dla ochrony danych, a więc zważyć ryzyko, które wiąże się z takim działaniem. Sam fakt, że mamy dane „ściągnięte” z naszego systemu, nie oznacza, że możemy te dane swobodnie wykorzystać do trenowania. Diabeł tkwi (niestety) w szczegółach. Oczywiście przepisy nie są bezwzględne i dają pewną elastyczność, ale upewnienie się, że nie naruszamy RODO, powinno być naszym priorytetem. Nawet jeżeli na myśl o spotkaniu z „tymi od RODO” włosy stają nam dęba. Całkiem niedawno francuski organ ochrony danych opublikował AI Factsheets, które na kilkudziesięciu stronach tłumaczą, o co w tym wszystkim chodzi.

Czasem dane nie są nasze. Kupiliśmy je od pośrednika (np. brokera danych), a więc konieczne będzie przejrzenie umowy, która może zawierać pewne ograniczenia – dane mogą być na licencji i nie być przez to naszą własnością. Ograniczenia mogą dotyczyć np. tego, do jakich celów możemy lub nie możemy ich wykorzystać.

Dane mogą być też chronione prawami autorskimi, a wtedy zaczyna się prawdziwa „jazda”. Dzisiaj przepisy z zakresu praw własności intelektualnej są mocno niejasne w kontekście systemów sztucznej inteligencji i nie ma jasności, jak podchodzić do ochrony w sytuacji, w której system wygenerował „coś”, inspirując się np. obrazami znanego artysty, który zgody na to nie udzielił. Na poziomie Unii Europejskiej, ale i krajowym tworzone są obecnie rozwiązania, które mają te kwestie uporządkować, ale bądźmy szczerzy – liczba zagadnień powoduje,

że będzie trudno je wszystkie zaadresować. Wciąż bardzo istotna jest jednak weryfikacja, czy możemy jakiś zbiór (także ten w ramach modeli ogólnego przeznaczenia) wykorzystać. Pamiętajmy przy tym, że w tym miejscu mogą pojawić się kwestie związane z ochroną wizerunku i ewentualną odpowiedzialnością z tego tytułu.

Wreszcie jest AI Act, który niebawem – wszystko na to wskazuje – stanie się obowiązującym prawem i przynajmniej dla części dostawców i wdrażających sporym wyzwaniem. Piszę o tym akcie prawnym dlatego, że wprowadzi on w niektórych sytuacjach konieczność spełnienia wymogów dla danych treningowych, walidacyjnych i testowych. Przykładowo przy systemach wysokiego ryzyka będzie konieczność, aby zbiory takie były opracowywane w zgodzie z określonymi praktykami. Zwrócę tutaj uwagę na art. 10 ust. 3, który stanowi, że:

„zbiory danych treningowych, walidacyjnych i testowych muszą być adekwatne, wystarczająco reprezentatywne oraz
w jak największym stopniu wolne od błędów i kompletne z punktu widzenia przeznaczenia. Muszą się one charakteryzować odpowiednimi właściwościami statystycznymi, w tym, w stosownych przypadkach, w odniesieniu do osób lub grup osób, wobec których ma być stosowany system AI wysokiego ryzyka. Te kryteria zbiorów danych mogą zostać spełnione na poziomie pojedynczych zbiorów danych lub na poziomie ich kombinacji”.

To będzie naprawdę ciężki kawałek chleba, a powiem tylko, że to nie wszystko. Rygorystyczne wymogi pojawią się np. w odniesieniu do modeli ogólnego przeznaczenia (takich jak modele GPT).

Te kwestie sprowadzają nas także do ważnego zagadnienia etyki AI, czyli koncepcji odpowiedzialnej (ang. responsible) czy godnej zaufania (ang. trustworthy) sztucznej inteligencji, której ważnym elementem jest fokus na dane. W myśl tego, że „mogę”, nie zawsze znaczy „powinienem”. Bo czasem sam fakt posiadania podstawy prawnej do wykorzystania danych nie jest wystarczającym czynnikiem decyzyjnym. Do tego potrzeba nie tylko katalogu wartości i zasad, lecz także operacjonali- zacji na poziomie organizacji.

Dodatkowe wymagania względem wykorzystywa- nych danych mogą pojawić się ze strony organów regulacyjnych, które nadzorują niektóre rynki. Przykładowo, jeżeli jesteśmy bankiem, to Komisja Nadzoru Finansowego będzie od nas wymagać spełnienia obowiązków w zakresie infrastruktury danych (Rekomendacja D) czy modeli (Rekomendacje J i W).

Jak więc podejść do zapewnienia zgodności z obowiązującymi przepisami prawa (ang. compliance) na poziomie organizacji? Wiele zależy od skali wykorzystania danych, ale ponieważ więk- szość podmiotów chce znaleźć się w czołówce w tym zakresie, to bez pewnych rozwiązań trudno będzie się obejść.

Całkiem dobrym kierunkiem będzie zajrzenie do normy ISO 42001:2023 (AI Governance), która określa nam zasady zarządzania AI w organizacji. Znajdziemy tam wskazówki, co do tego, jak stworzyć odpowiedni system zarządzania obejmujący polityki, procedury, ale także dokumentację techniczną, która będzie miała tutaj istotne znaczenie. Jeżeli nie mamy w organizacji zasad dla Data Governance, to pomyślmy chociaż o kartach danych, które ułatwią nam pozyskiwanie metadanych istotnych z perspektywy oceny zgodności. Zacznijmy tworzyć kulturę organizacji, nakierowanej na branie odpowiedzialności za dane, a także pomyślmy o odpowiednim systemie zarządzania ryzykami AI, bo jednym z tych ryzyk jest ryzyko danych (ma szerokie znaczenie).

Musimy także uświadomić sobie, że spojrzenie na dane z perspektywy zgodności z prawem i regulacjami nie musi oznaczać tworzenia dodatkowych barier. Dane można wykorzystywać, ale trzeba robić to umiejętnie i w sposób nienaruszający praw osób trzecich. Niekiedy będzie to kosztowny proces, ale jego wdrożenie zmniejszy nam ryzyko ewentualnej odpowiedzialności zewnętrznej, zarówno cywilnej, jak i administracyjnej.

Autor

dr Michał Nowakowski

Radca prawny, partner odpowiedzialny za AI & CyberSec w ZP Zackiewicz & Partners, CEO w GovernedAI.com

Podziel się

Może Cię zainteresować