Umjetna inteligencijaPREPRAVLJENOdb#3716

GPT-5.5 u cyber testovima: isti rang kao Claude Mythos, ali šire dostupan

2. svibnja 2026.11:01(7h ago)

United Kingdom

Brzi interpreter članka

AISI-jeva evaluacija pokazuje da GPT-5.5 doseže razinu Claude Mythos Previewa na naprednim cyber zadacima i u simulaciji korporativnog napada. Važna ograda je da se radi o kontroliranim okruženjima bez aktivne obrane, pa je priča manje o gotovom oružju, a više o brzom prijenosu općih AI sposobnosti u ofenzivni cyber prostor.

AISI's results measure controlled cyber capability, not success against a well-defended network.📷 AI-generated / Tech&Space

AutorNexus ValeAI urednik"Voli čist benchmark skoro kao i grubi reality check."

★GPT-5.5 je drugi model koji je završio AISI-jevu 32-koračnu simulaciju napada TLO
★Na ekspertnim CTF zadacima postigao je 71,4 posto, statistički blizu Claude Mythos Previewa
★AISI upozorava da testovi nisu uključivali aktivne branitelje ni realne alarme

Britanski AI Security Institute testirao je OpenAI-jev GPT-5.5 na cyber zadacima koji više ne izgledaju kao obični benchmark. Model je na ekspertnim capture-the-flag zadacima ostvario prosječnu uspješnost od 71,4 posto, uz standardnu pogrešku od 8,0 postotnih bodova. Claude Mythos Preview bio je na 68,6 posto, što znači da je razlika zanimljiva, ali ne dovoljno čista za pobjednički krug.

Važniji dio nalazi se u simulaciji The Last Ones, 32-koračnom scenariju korporativnog napada kroz četiri podmreže i oko 20 hostova. AISI procjenjuje da bi ljudskom ekspertu trebalo oko 20 sati da prođe cijeli lanac. GPT-5.5 ga je dovršio u 2 od 10 pokušaja, dok je Claude Mythos Preview ranije uspio u 3 od 10 pokušaja.

To je signal, ne dozvola za paniku. Isti AISI jasno navodi da su postojeći poligoni bez aktivnih branitelja, bez sigurnosnog nadzora i bez posljedica za poteze koji bi u stvarnoj mreži podigli alarm. Drugim riječima, model je pokazao da može orkestrirati napad u ranjivom laboratorijskom okruženju, ali nije dokazao da može tiho pobijediti dobro branjenu organizaciju.

AISI-jevi rezultati ne dokazuju da model probija dobro branjene mreže, ali pokazuju da se napadačke vještine pojavljuju kao nusproizvod općeg napretka.

The key caveat: TLO did not include active defense, monitoring, or alarm penalties.📷 AI-generated / Tech&Space

Neugodna lekcija nije samo rezultat GPT-5.5, nego smjer krivulje. AISI piše da se ofenzivne cyber vještine mogu pojavljivati kao nusproizvod općeg napretka u autonomiji, programiranju i zaključivanju. To znači da se sigurnosni problem ne može svesti na zabranu jednog specijaliziranog modela ili jednog alata za penetracijsko testiranje.

Primjer iz izvješća pokazuje zašto. U zadatku rust_vm GPT-5.5 je bez ljudske pomoći reverzno inženjerirao prilagođeni virtualni stroj, izgradio disassembler i riješio provjeru lozinke za nešto više od 10 minuta. AISI navodi da je ekspertu iz Crystal Peak Securityja za isti zadatak trebalo otprilike 12 sati.

Dostupnost ostaje praktična razlika između modela. The Decoder naglašava da je GPT-5.5 šire dostupan kroz ChatGPT i API, dok je Claude Mythos Preview ograničen. Ipak, AISI napominje da javne implementacije imaju dodatne zaštite, nadzor i kontrole pristupa, pa sirova evaluacija nije isto što i ono što svaki korisnik može izvući iz proizvoda.

Najrazumniji zaključak zato je dvostruk. Branitelji bi trebali pretpostaviti da će AI ubrzati pronalazak i iskorištavanje slabosti u loše održavanim sustavima. Istodobno, stvarni test za GPT-5.5 i Mythos tek dolazi: mreže s obranom, detekcijom, lažnim tragovima i posljedicama za svaku bučnu grešku.

GPT-5.5 cyber evaluation UK AISI Claude Mythos Preview The Last Ones AI cyber safeguards

// Još iz ove kategorije

ARC-AGI-3 shows frontier models still lack a stable world model

Prethodni članak

ARC-AGI-3 pokazuje da frontier modeli još nemaju stabilan model svijeta

Evo 2 reads genomes across all domains of life, but biology design is not one click

Sljedeći članak

Evo 2 čita genome preko svih domena života, ali dizajn biologije još nije klik na gumb

// sviđanja čitatelja

//Comments

Uredi u foto-review →