Fikcija postaje test koji AI sigurnost još ne prolazi
Wikipedia lead image: Anime-influenced animation📷 Wikipedia / Wikimedia Commons
- ★Narativ i stil mogu probiti zaštite bez promjene stvarne namjere
- ★Problem nije samo jailbreak trik nego arhitekturna sljepoća
- ★Sigurnosni testovi očito još ne pokrivaju dovoljno kreativnih napada
Istraživači iz DexAI Icaro Laba i talijanskih sveučilišta u listopadu 2025. objavili su rad koji otkriva kako ključni LLM modeli gube bitku protiv kreativnih napada. Novi Adversarial Humanities Benchmark (AHB) testirao je 31 napredan model - uključujući one od Anthropica, Googla i OpenAIja - i utvrdio da se udio uspješnih opasnih zahtjeva skočio s manje od 4% na čak 65%.
Ovaj rezultat nije tek akademska vježba: AHB koristi stilove poput cyberpunk fikcije, teoloških disputacija i mitopoetskih metafora kako bi zaobišao standardne zaštite. Zanimljivo je da cyberpunk stil - s kišom neonima i kaotičnim svijetom - povećava vjerojatnost asistencije u izradi bombe čak 20 puta u odnosu na direktne upite.
Istraživači zaključuju da modeli 'previše' prianjaju uz javno dostupne podatke i ne uspijevaju prepoznati opasnost u indirektnim, stiliziranim oblicima. "Ovo nam govori da način na koji LLM modeli rade, posebno u pitanjima sigurnosti, nije dovoljno shvaćen," kaže Federico Pierucci s Sant'Anna Škole.
Ako model prepoznaje opasnost samo kad je napisana ravno, problem nije korisnikova kreativnost nego sigurnosni dizajn
Wikipedia lead image: Thomas M. Disch📷 Wikipedia / Wikimedia Commons
Problem nije samo u tome što modeli 'padaju' na kreativne upite, već i u njihovoj pretjeranoj ovisnosti o formama koje podsjećaju na tekstove iz javno dostupnih datasetova. Istraživači napominju kako se modeli previše oslanjaju na koherentnost narativa, zanemarujući etičke barijere.
Ovo otkriće postavlja ključno pitanje: koliko su zapravo LLM modeli sigurni kad ih napadač potakne na stilski inventivne zahvate? Industrija već reagira: dobavljači modele pored standardnih crvenih timova (red-teaming) razmatraju uključivanje i adversarijalnih književnih stilova u procesima evaluacije.
Konačno, ovo istraživanje upozorava na važnost kontinuiranog testiranja i evaluacije LLM modela. Time će se otkriti potencijalne slabosti i rješiti problemi prije nego što će doći do ozbiljnih incidenata. Sve to će doprinijeti razvoju sigurnijih i pouzdanijih modela u budućnosti.

