LLMs’ dangerous weak spots: cats, Dr. House, poetry and authority figures

In theory, they’re resistant to manipulation. In practice, a cleverly phrased prompt can push them to work around their own safeguards. Language models can handle very long contexts, but they still get swayed by subtle cues—from poetic style to unusual asides. So where does that vulnerability come from?

Loading the Elevenlabs Text to Speech AudioNative Player…

LLMs are really good at doing exactly what they were built for. Looking at everything in the context window, they compute a probability for each of the hundreds of thousands of possible tokens in their vocabulary. Based solely on those probabilities, one token is picked from all the options—the one that gets sent to the output and appended to the running context. That expands the context, and then the process repeats to generate the next token.

Until we put the model to work on something concrete with a verifiable result, there’s really nothing in this process to poke holes in.

Ten artykuł jest częścią płatnej edycji hAI Magazine. Aby go przeczytać w całości, wykup dostęp on-line

25 zł miesięcznie

Wykup dostęp

Piotr Szczuko, naukowiec i dydaktyk w Politechnice Gdańskiej, w Katedrze Systemów Multimedialnych, gdzie prowadzi badania zastosowań uczenia maszynowego w przetwarzaniu danych multimodalnych, kształceniem studentów i kadry akademickiej. Specjalizuje się w etycznym i odpowiedzialnym wdrażaniu AI i w optymalizacji modeli. Jest autorem ponad 100 publikacji naukowych i prelegentem TEDx.

Share

You might be interested in