Umjetna inteligencijadb#1125

DeepMind otkriva šest zamki za autonomne AI agente – i nisu teorija

1. travnja 2026.18:17(3w ago)

London, United Kingdom

DeepMind otkriva šest zamki za autonomne AI agente – i nisu teorija📷 © Tech&Space

★6 kategorija napada na AI agente – od ubrizgavanja sadržaja do kontroliranog ponašanja
★58-90% uspjeha u manipulaciji pod-agenta s otrovanim sistemskim upitom
★Realni dokazi napada, a ne samo teorija – kombinatorna površina za eksploataciju

Google DeepMind objavio je studiju koja nije samo još jedan akademski rad o teorijskim ranjivostima, već prvi sustavni katalog šest tipova zamki koje mogu preuzeti kontrolu nad autonomnim AI agentima. Razlika je u detaljima: riječ je o dokumentiranim proof-of-concept napadima, a ne o apstraktnim scenarijima.

Na primjer, manipulacija samo jednog e-pošte dovoljna je da agent izloži povjerljive podatke, dok ubacivanje skrivenih HTML komentara ili meta-podataka u slike može iskriviti percepciju cijelog sustava. Iza ovih brojeva – poput 58-90 % uspješnosti u stvaranju 'otrovanog' pod-agenta – krije se stvarni problem: autonomni agenti ne operiraju u sterilnim laboratorijskim uvjetima.

Oni sami pretražuju web, upravljaju e-poštom i izvršavaju transakcije, što znači da je njihova 'površina napada' kombinatorna. Ako vam se čini da je ovo samo još jedan sigurnosni upozoraj, razmislite o ovome: studija ne govori o hipotezama, već o mehanizmima koji već funkcioniraju u divljini.

Najzanimljivije je što ove zamke nisu samo tehnički detalji. One otkrivaju fundamentalnu slabost današnjih AI sustava – zavisnost od okoline koja ih može lako manipulirati. Ako agent može biti prevaren jednostavnim trikom s CSS-om ili lažnim API-jem, što onda znači 'autonomija' u praksi?

Od teorije do realnosti: kako manipulacija okolinom ugrožava sigurnost AI sistema📷 © Tech&Space

Od teorije do realnosti: kako manipulacija okolinom ugrožava sigurnost AI sistema

DeepMindova klasifikacija šest zamki – ubrizgavanje sadržaja, semantička manipulacija, kognitivno stanje, kontrola ponašanja, stvaranje pod-agenta i sustavne zamke – nije samo popis, već karta napada za buduće eksploatacije. Na primjer, 'kognitivne zamke' mogu otrovati dugoročnu memoriju agenta izmjenom samo nekoliko dokumenata u RAG bazi znanja.

To nije futuristički scenarij: svaka kategorija ima dokazane primjere, a napadi se mogu lancati, slojevati ili distribuirati kroz višestruke agente. Pravi signal ovdje nije u samim napadima, već u promjeni paradigme sigurnosti. Dok se ranije fokusirao na statičke modele (npr. LLMs), sada je jasno da je dinamičko okruženje – web-stranice, dokumenti, API-jevi – postalo glavno bojno polje.

To stavlja pritisak na razvijače da premisle kako testiraju svoje sustave: benchmarkovi u kontroliranim uvjetima više nisu dovoljni. Pitanje nije hoće li doći do eksploatacije, već kada i tko će prvi iskoristiti ove rupe.

Za razliku od uobičajenih 'upozorenja o AI sigurnosti', ova studija nudi nešto rijetko: konkretne mehanizme koje možete testirati već danas. Odgovori na pitanja poput 'Ako vaš agent koristi RAG, koliko je dokumenata potrebno izmijeniti da bi se njegova memorija 'otrovana'?' ili 'Ako radi s e-poštom, može li ga jedan manipuliran sadržaj navesti na krivo djelovanje?' nisu teorijski – oni definiraju stvarnu granicu između demo verzije i deploymenta.

DeepMindova studija služi kao podsjetnik da tehnologija nikada nije neutralna – ovisi o okolini u kojoj djeluje. Sigurnost AI-a sada više nije pitanje algoritama, već cjelokupnog ekosustava koji ih okružuje.

DeepMindAutonomous AI AgentsAI Safety

//Comments

Uredi u foto-review →