Niebezpieczne słabości LLM, czyli koty, dr House, poezja i autorytety

W teorii są odporne na manipulacje, w praktyce wystarczy sprytnie podane polecenie, aby zaczęły działać wbrew własnym zabezpieczeniom. Modele językowe radzą sobie z ogromnymi kontekstami, ale wciąż ulegają nieoczywistym bodźcom – od poetyckiego stylu po nietypowe wtrącenia. Skąd bierze się ta podatność?

Piotr Szczuko

Loading the Elevenlabs Text to Speech AudioNative Player…

Modele LLM robią bardzo dobrze to, do czego zostały stworzone. Na podstawie całej zawartości okna kontekstu, duże modele językowe wyliczają prawdopodobieństwo dla każdego z setek tysięcy możliwych tokenów obsługiwanego słownika. Wyłącznie w oparciu o prawdopodobieństwa ostatecznie podjęta jest decyzja i wskazany jeden token z wszystkich możliwych, ten który przekazany będzie na wyjście oraz doklejony do całego dotychczasowego kontekstu. W rezultacie kontekst się powiększył i można powtórzyć proces i wygenerować kolejny token.

Póki modelu nie użyjemy do czegoś konkretnego, co ma wynik poddający się weryfikacji, nie ma w tym procesie w zasadzie nic, co można krytykować.

Ten artykuł jest częścią płatnej edycji hAI Magazine. Aby go przeczytać w całości, wykup dostęp on-line

29,99 zł miesięcznie

Wykup dostęp

Piotr Szczuko, naukowiec i dydaktyk w Politechnice Gdańskiej, w Katedrze Systemów Multimedialnych, gdzie prowadzi badania zastosowań uczenia maszynowego w przetwarzaniu danych multimodalnych, kształceniem studentów i kadry akademickiej. Specjalizuje się w etycznym i odpowiedzialnym wdrażaniu AI i w optymalizacji modeli. Jest autorem ponad 100 publikacji naukowych i prelegentem TEDx.

Podziel się

Może Cię zainteresować