AI hakeri preskaču ljude: 5,7 mjeseci do udvostručenja
📷 © Tech&Space
- ★Opus 4.6 i GPT-5.3 Codex rješavaju zadatke za 3 sata — kao stručnjaci
- ★Otvoreni kod zaostaje 5,7 mjeseci iza zatvorenih modela
- ★Lyptus Research testirao s 10 sigurnosnih eksperata
AI modeli sada rješavaju sigurnosne zadatke brže od ljudi — barem u kontroliranim uvjetima. Prema studiji Lyptus Research objavljenoj ovog tjedna, oficijalna mjerenja pokazuju da se ofenzivne cyber-mogućnosti AI-a udvostručuju svaka 5,7 mjeseci od 2024., umjesto prethodnih 9,8 mjeseci od 2019.
To nije samo statistika: modeli poput Opus 4.6 i GPT-5.3 Codex sada postižu 50%-tni uspjeh u zadacima koji human pen-testere koštaju prosječno tri sata rada — ali samo uz 2-milijunski token budget. I tu počinje problem s kontekstom.
Testiranje je provedeno s deset profesionalnih sigurnosnih stručnjaka (malen uzorak, čak i za akademsku studiju), a rezultati ovise o token budgetu: isti GPT-5.3 Codex s 10 milijuna tokena rasteže „ljudsko“ vrijeme na 10,5 sati. Drugim riječima, skaliraj li resurse, AI i dalje zaostaje — ali pitanje je koliko će to trajati.
Zanimljivije je što otvoreni modeli zaostaju točno 5,7 mjeseci iza zatvorenih, što ukazuje na tržišnu, a ne tehnološku barijeru. Ako je ovo natjecanje, Meta i Mistral upravo gube rundu.
📷 © Tech&Space
Demo nasuprot deploymenta: tko zapravo dobiva prednost
Hype filter: studija ne govori o realnim napadačima, već o sintetičkim benchmarkovima. Čak i uz impresivne brojeve, ostaje pitanje koliko će ovih modela funkcionirati u dinamičnim okruženjima — gdje su obrana, zero-days i ljudska improvizacija ključni.
MITRE i druge organizacije već godinama upozoravaju na jazu između laboratorija i terena, a ovdje je ta jaz izričito ignorirana. Industrijska mapa je jasna: closed-source igrači (Anthropic, OpenAI, Google) dobivaju prednost, dok otvorena zajednica trči zaostatak.
Ali tu je i drugi signal — regulatorni. Ako AI može automatizirati ofenzivne zadatke, tko će biti odgovoran za incidente?
EU-ov AI Act još uvijek nema jasne odredbe za „dual-use“ modele, a ove studije bi mogle ubrzati rasprave. Za developer zajednicu, reakcije na Hacker News i GitHub-u su podijeljene: dio kaže da je ovo samo marketing brojeva, dok drugi upozoravaju na asimetriju — obrana se ne skalira istom brzinom kao napad.
Pravi signal ovdje je u tome što čak i konzervativne procjene (poput onih iz ARXIV-a) više ne govore „ako“ nego „kada“ će AI preuzeti ofenzivne uloge.
Razvoj AI tehnologije u sigurnosnim zadacima je brz i dinamičan. Studije kao ova pokazuju da AI modeli postaju sve bolji u rješavanju sigurnosnih izazova. Međutim, važno je razumjeti da ove studije imaju ograničenja i da stvarni svijet nije uvijek kontroliran kao laboratorijski uvjeti.