Guardrails. Naprawdę przednia straż

W systemach sztucznej inteligencji guardrails pełnią funkcję strażników, którzy kontrolują jej działanie, zapewniając bezpieczeństwo, zgodność z regulacjami i unikanie szkodliwych treści. To tak naprawdę jednocześnie straż przednia i tylna, bo filtruje dane nie tylko na wejściu, ale i na wyjściu.

Sebastian Kondracki, Jan Maria Kowalski

31 mar 2025

Sporo się mówi o LLM-ach wykorzystywanych w życiu codziennym czy edukacji. Jednym z nich jest chatbot pomagający w nauce uczniom szkoły podstawowej. Taki automatyczny korepetytor może o dowolnej porze, z nieludzką (dosłownie) cierpliwością wszystko wytłumaczyć, na dodatek w dopasowanym do danego ucznia stylu i tempie. Brzmi świetnie, ale musimy pamiętać o pojawiających się w takim układzie wyzwaniach związanych z bezpieczeństwem – bezpieczeństwem zarówno modelu, jak i jego młodych użytkowników. Dzieci mają nieograniczoną wyobraźnię, co sprawia, że potrafią być bardzo kreatywne podczas zadawania pytań. Mogą testować model, używając potocznego języka, zadawać prowokacyjne pytania lub próbować przechytrzyć system. Jednocześnie powinniśmy chronić uczniów przed nieodpowiednimi treściami – od wulgaryzmów i mowy nienawiści, poprzez złośliwy kod, aż po niebezpieczne porady czy porady dotyczące nielegalnych działań. Dlatego potrzebujemy skutecznych zabezpieczeń – swoistych strażników, którzy będą czuwać nad bezpieczną komunikacją między modelem a użytkownikiem.

Realne zagrożenia

Interakcja z modelami językowymi może stwarzać różne zagrożenia, zarówno po stronie użytkownika, jak i samego systemu. Szczególnie problematyczne są przypadki, w których użytkownicy celowo lub nieświadomie testują granice modelu, narażając go na manipulacje. Jednym z kluczowych zagrożeń jest prompt injection, czyli manipulacja modelem za pomocą specjalnie skonstruowanych poleceń. Dzięki tej technice użytkownik może próbować obejść zabezpieczenia i skłonić model do wygenerowania treści, które normalnie byłyby zablokowane. To szczególnie niebezpieczne w obszarze edukacji, gdzie kreatywne pytania uczniów mogą nieświadomie doprowadzić do tzw. wycieku danych (ang. data leakage), czyli ujawnienia fragmentów danych treningowych lub danych wrażliwych. Ów wyciek może być też starannie zaplanowaną próbą wyłudzenia takich danych.

Ten artykuł jest częścią płatnej edycji hAI Magazine. Aby go przeczytać w całości, wykup dostęp on-line

29,99 zł miesięcznie

Wykup dostęp

Zaloguj Pakiety

Sebastian Kondracki

Dyrektor Biura Rozwoju Sztucznej Inteligencji w Banku Pekao. Zaangażowany w rozwój Bielika, lider inicjatywy Sójka – polskiego modelu typu guardrails. Twórca programów szkoleniowych z zakresu AI i transformacji cyfrowej.

Jan Maria Kowalski

Podziel się

Może Cię zainteresować

Sebastian Kondracki

Bielik lokalnie – praktyczne wdrożenie małych modeli językowych

Bielik wylądował! Mały model językowy, który pojawił się na przełomie sierpnia i września 2024 roku, zdobył wysokie noty w testach benchmarków i tym samym uznanie użytkowników.

17.12
Sebastian Kondracki

Graf wiedzy i AI: synergiczna współpraca w biznesie

Grafy wiedzy mają swoje korzenie w teorii grafów, jednym z działów matematyki o całkiem solidnej historii. Jedna z prac, która dała początek teorii grafów, opisywała słynne zagadnienie mostów królewieckich.

02.10
Sebastian Kondracki

RAG na sterydach czyli generowanie treści z turbodoładowaniem

Zaprezentowana już w 2020 roku przez firmę Meta, technologia ta zapoczątkowała rozwój licznych chatbotów, asystentów oraz systemów QA (ang. question answering, systemy pytań i odpowiedzi) służących do zarządzania wiedzą. Jak działa, i…

29.08

Guardrails. Naprawdę przednia straż

Realne zagrożenia

Ten artykuł jest częścią płatnej edycji hAI Magazine. Aby go przeczytać w całości, wykup dostęp on-line

29,99 zł miesięcznie

Podziel się

Podziel się

Może Cię zainteresować

Bielik lokalnie – praktyczne wdrożenie małych modeli językowych

Graf wiedzy i AI: synergiczna współpraca w biznesie

RAG na sterydach czyli generowanie treści z turbodoładowaniem