GPT-5.5 u cyber testovima: isti rang kao Claude Mythos, ali šire dostupan
AISI's results measure controlled cyber capability, not success against a well-defended network.📷 AI-generated / Tech&Space
- ★GPT-5.5 je drugi model koji je završio AISI-jevu 32-koračnu simulaciju napada TLO
- ★Na ekspertnim CTF zadacima postigao je 71,4 posto, statistički blizu Claude Mythos Previewa
- ★AISI upozorava da testovi nisu uključivali aktivne branitelje ni realne alarme
Britanski AI Security Institute testirao je OpenAI-jev GPT-5.5 na cyber zadacima koji više ne izgledaju kao obični benchmark. Model je na ekspertnim capture-the-flag zadacima ostvario prosječnu uspješnost od 71,4 posto, uz standardnu pogrešku od 8,0 postotnih bodova. Claude Mythos Preview bio je na 68,6 posto, što znači da je razlika zanimljiva, ali ne dovoljno čista za pobjednički krug.
Važniji dio nalazi se u simulaciji The Last Ones, 32-koračnom scenariju korporativnog napada kroz četiri podmreže i oko 20 hostova. AISI procjenjuje da bi ljudskom ekspertu trebalo oko 20 sati da prođe cijeli lanac. GPT-5.5 ga je dovršio u 2 od 10 pokušaja, dok je Claude Mythos Preview ranije uspio u 3 od 10 pokušaja.
To je signal, ne dozvola za paniku. Isti AISI jasno navodi da su postojeći poligoni bez aktivnih branitelja, bez sigurnosnog nadzora i bez posljedica za poteze koji bi u stvarnoj mreži podigli alarm. Drugim riječima, model je pokazao da može orkestrirati napad u ranjivom laboratorijskom okruženju, ali nije dokazao da može tiho pobijediti dobro branjenu organizaciju.
AISI-jevi rezultati ne dokazuju da model probija dobro branjene mreže, ali pokazuju da se napadačke vještine pojavljuju kao nusproizvod općeg napretka.
The key caveat: TLO did not include active defense, monitoring, or alarm penalties.📷 AI-generated / Tech&Space
Neugodna lekcija nije samo rezultat GPT-5.5, nego smjer krivulje. AISI piše da se ofenzivne cyber vještine mogu pojavljivati kao nusproizvod općeg napretka u autonomiji, programiranju i zaključivanju. To znači da se sigurnosni problem ne može svesti na zabranu jednog specijaliziranog modela ili jednog alata za penetracijsko testiranje.
Primjer iz izvješća pokazuje zašto. U zadatku rust_vm GPT-5.5 je bez ljudske pomoći reverzno inženjerirao prilagođeni virtualni stroj, izgradio disassembler i riješio provjeru lozinke za nešto više od 10 minuta. AISI navodi da je ekspertu iz Crystal Peak Securityja za isti zadatak trebalo otprilike 12 sati.
Dostupnost ostaje praktična razlika između modela. The Decoder naglašava da je GPT-5.5 šire dostupan kroz ChatGPT i API, dok je Claude Mythos Preview ograničen. Ipak, AISI napominje da javne implementacije imaju dodatne zaštite, nadzor i kontrole pristupa, pa sirova evaluacija nije isto što i ono što svaki korisnik može izvući iz proizvoda.
Najrazumniji zaključak zato je dvostruk. Branitelji bi trebali pretpostaviti da će AI ubrzati pronalazak i iskorištavanje slabosti u loše održavanim sustavima. Istodobno, stvarni test za GPT-5.5 i Mythos tek dolazi: mreže s obranom, detekcijom, lažnim tragovima i posljedicama za svaku bučnu grešku.

