🔒 Guardrails. Naprawdę przednia straż

W systemach sztucznej inteligencji guardrails pełnią funkcję strażników, którzy kontrolują jej działanie, zapewniając bezpieczeństwo, zgodność z regulacjami i unikanie szkodliwych treści. To tak naprawdę jednocześnie straż przednia i tylna, bo filtruje dane nie tylko na wejściu, ale i na wyjściu.

Loading the Elevenlabs Text to Speech AudioNative Player…

Sporo się mówi o LLM-ach wykorzystywanych w życiu codziennym czy edukacji. Jednym z nich jest chatbot pomagający w nauce uczniom szkoły podstawowej. Taki automatyczny korepetytor może o dowolnej porze, z nieludzką (dosłownie) cierpliwością wszystko wytłumaczyć, na dodatek w dopasowanym do danego ucznia stylu i tempie. Brzmi świetnie, ale musimy pamiętać o pojawiających się w takim układzie wyzwaniach związanych z bezpieczeństwem – bezpieczeństwem zarówno modelu, jak i jego młodych użytkowników. Dzieci mają nieograniczoną wyobraźnię, co sprawia, że potrafią być bardzo kreatywne podczas zadawania pytań. Mogą testować model, używając potocznego języka, zadawać prowokacyjne pytania lub próbować przechytrzyć system. Jednocześnie powinniśmy chronić uczniów przed nieodpowiednimi treściami – od wulgaryzmów i mowy nienawiści, poprzez złośliwy kod, aż po niebezpieczne porady czy porady dotyczące nielegalnych działań. Dlatego potrzebujemy skutecznych zabezpieczeń – swoistych strażników, którzy będą czuwać nad bezpieczną komunikacją między modelem a użytkownikiem.

Realne zagrożenia

Interakcja z modelami językowymi może stwarzać różne zagrożenia, zarówno po stronie użytkownika, jak i samego systemu. Szczególnie problematyczne są przypadki, w których użytkownicy celowo lub nieświadomie testują granice modelu, narażając go na manipulacje. Jednym z kluczowych zagrożeń jest prompt injection, czyli manipulacja modelem za pomocą specjalnie skonstruowanych poleceń. Dzięki tej technice użytkownik może próbować obejść zabezpieczenia i skłonić model do wygenerowania treści, które normalnie byłyby zablokowane. To szczególnie niebezpieczne w obszarze edukacji, gdzie kreatywne pytania uczniów mogą nieświadomie doprowadzić do tzw. wycieku danych (ang. data leakage), czyli ujawnienia fragmentów danych treningowych lub danych wrażliwych. Ów wyciek może być też starannie zaplanowaną próbą wyłudzenia takich danych.

Ten artykuł jest częścią drukowanej edycji hAI Magazine. Aby go przeczytać w całości, wykup dostęp on-line

29,99 zł miesięcznie

Wykup dostęp

Dyrektor Biura Rozwoju Sztucznej Inteligencji w Banku Pekao. Zaangażowany w rozwój Bielika, lider inicjatywy Sójka – polskiego modelu typu guardrails. Twórca programów szkoleniowych z zakresu AI i transformacji cyfrowej.

Dyrektor Biura Rozwoju Sztucznej Inteligencji w Banku Pekao. Zaangażowany w rozwój Bielika, lider inicjatywy Sójka – polskiego modelu typu guardrails. Twórca programów szkoleniowych z zakresu AI i transformacji cyfrowej.

Podziel się

Może Cię zainteresować