The Verge: hakeri više ne lome samo chatbot, nego njegovu ulogu
Osobnost chatbota postaje nova površina napada kada je povezana s alatima i ovlastima.📷 AI-generated image / TECH&SPACE
- ★The Verge opisuje pomak od jednostavnih jailbreakova prema napadima koji ciljaju ponašanje i ton AI chatbotova.
- ★Rizik raste kada chatbot ima ulogu brenda, savjetnika ili agenta s pristupom alatima, podacima i radnjama.
- ★Obrana traži sigurnosni dizajn oko uloga, dozvola, memorije i izlaza, a ne samo bolji sistemski prompt.
The Verge u novom izdanju newslettera The Stepback opisuje problem koji je za AI industriju neugodniji od starog pitanja može li se chatbot „nagovoriti” da prekrši pravila. Prva generacija javnih chatbotova često je padala na sirove trikove: napiši zabranjeni odgovor kao pjesmu, glumi drugi sustav, ignoriraj ranije upute. To je bilo važno, ali i prilično vidljivo. Nova faza je tiša. Napadači sve više gledaju u ono što proizvod čini privlačnim: osobnost, ton, ulogu i naviku modela da bude koristan.
To mijenja sigurnosnu sliku. Chatbot više nije samo tekstni okvir koji odgovara na pitanja. U mnogim proizvodima postaje lice tvrtke, korisnička podrška, prodajni pomoćnik, edukator, interni pretraživač ili agent koji može koristiti alate. Ako je sustav oblikovan da bude topao, uporan, neformalan ili autoritativan, taj stil nije kozmetika. On utječe na to kako model rješava nejasne zahtjeve, koliko daleko ide u „pomaganju” i kada popušta pred korisnikom koji ga pritišće.
Zato je riječ „osobnost” u ovom kontekstu manje marketinška, a više operativna. Napad na chatbotovu osobnost nije nužno spektakularan jailbreak. Može biti niz zahtjeva koji model polako prebacuju iz uloge opreznog asistenta u ulogu poslušnog suradnika, lažnog stručnjaka ili sustava koji počinje prihvaćati korisnikovu premisu. Sigurnosna zajednica taj širi problem već opisuje kroz kategorije poput prompt injectiona, neovlaštenog otkrivanja podataka i prekomjerne ovlasti modela u OWASP Top 10 for LLM Applications.
Napadi na chatbotove više se ne svode samo na trik-rečenice. Što su AI asistenti više oblikovani kao brendovi, savjetnici i sugovornici, to njihova „osobnost” postaje nova napadna površina.
Sigurnost AI agenta ovisi o granicama između razgovora, memorije i izvršenja radnji.📷 AI-generated image / TECH&SPACE
Najveća pogreška bila bi tretirati ovo kao problem boljeg bontona u odgovoru. Ako chatbot nema pristup osjetljivim podacima, šteta je ograničena na loš savjet, reputacijski udar ili širenje netočnosti. Ako je spojen na CRM, e-mail, dokumente, kod, plaćanja ili interne sustave, osobnost postaje sloj kroz koji napadač pokušava doći do radnje. Tu više nije dovoljno napisati stroži sistemski prompt i nadati se da će model ostati u karakteru.
Okvir poput NIST AI Risk Management Frameworka korisno podsjeća da se rizik mora mapirati, mjeriti i upravljati kroz cijeli životni ciklus sustava. U praksi to znači odvojiti ton od ovlasti. Chatbot može zvučati prijateljski, ali ne smije imati neograničen pristup alatima. Može pamtiti korisničke preferencije, ali memorija mora imati granice, reviziju i mogućnost brisanja. Može sažeti dokument, ali ne bi smio samostalno odlučiti da je korisnik ovlašten vidjeti svaki povezani zapis.
Za tvrtke koje uvode AI agente, korisna je i dokumentacija o sigurnim obrascima za modele i alate, primjerice OpenAI safety best practices. Bit nije u tome da jedan dobavljač ima konačan odgovor, nego da se arhitektura mora ponašati kao sigurnosni sustav: minimalne dozvole, provjera namjere, zapisivanje radnji, ljudska potvrda za osjetljive korake i jasna razlika između razgovora i izvršenja.
The Vergeov tekst zato pogađa širi prijelaz. AI chatbotovi više nisu novost koju korisnici testiraju iz znatiželje. Postaju sučelja za stvarne poslove. U toj fazi napadači neće napadati samo modelovu logiku, nego i njegovu društvenu masku: spremnost da se ispriča, prilagodi, povjeruje, udovolji i nastavi razgovor. Upravo tamo gdje proizvod želi djelovati najljudskije, sigurnosni timovi moraju biti najhladniji.

