ARC-AGI-3 pokazuje da frontier modeli još nemaju stabilan model svijeta
ARC-AGI-3 uses interactive environments to expose reasoning failures that static benchmarks can hide.📷 AI-generated / Tech&Space
- ★ARC Prize Foundation analizirala je 160 replayeva i reasoning tragova GPT-5.5 i Opus 4.7
- ★GPT-5.5 postiže 0,43 posto uz oko 10.000 dolara troška, a Opus 4.7 0,18 posto
- ★Tri glavne slabosti su lokalno bez globalnog modela, lažne analogije i pobjede bez razumijevanja
ARC-AGI-3 nije još jedan statični test na kojem model prepoznaje obrazac u tablici. Benchmark stavlja agente u interaktivna, potezna okruženja. Moraju istraživati, graditi hipotezu, testirati je i promijeniti plan kada se stvarnost ne uklopi u prvo objašnjenje. Prema The Decoderu, ARC Prize Foundation analizirala je 160 replayeva i reasoning tragova OpenAI GPT-5.5 i Anthropic Opus 4.7. Brojke su loše: GPT-5.5 postiže 0,43 posto uz oko 10.000 dolara troška, dok Opus 4.7 dolazi do 0,18 posto. Ljudi iste zadatke rješavaju bez posebne prethodne obuke. Ali najvažniji dio nije ljestvica. Najvažnije je što replayevi pokazuju gdje modeli pucaju. Oni ne padaju samo zato što ne vide piksel ili ne znaju pravilo. Često uoče točan lokalni efekt, ali ga ne uspiju spojiti u globalni model svijeta.
GPT-5.5 i Opus 4.7 padaju ispod jedan posto jer vide lokalne efekte, ali ih ne pretvaraju u pouzdanu teoriju igre.
The analysis identifies local-only reasoning, false analogy, and success without understanding.📷 AI-generated / Tech&Space
Prvi obrazac je lokalno razumijevanje bez cjeline. Model može primijetiti da jedna akcija rotira objekt ili da druga ulijeva boju, ali ne složi uzročni lanac: objekt treba poravnati, zatim koristiti sljedeću akciju, zatim provjeriti rezultat prema cilju. Drugi obrazac je lažna analogija. Nepoznato okruženje prebrzo se proglasi Tetrisom, Breakoutom, Sokobanom, Pongom ili nekom drugom poznatom igrom iz treninga. Vizualna sličnost tada postane teorija, a teorija počne trošiti poteze. To je opasno poznat problem za AI agente u stvarnom softveru: nepoznati alat izgleda kao poznati alat, pa model gura krivi postupak. Treći obrazac je pobjeda bez razumijevanja. Model ponekad riješi prvi level slučajno ili pogrešnim objašnjenjem, zatim taj uspjeh shvati kao potvrdu teorije. Na sljedećem levelu pogreška postaje tvrđe uvjerenje. Bez provjere zašto je strategija uspjela, uspjeh ne generalizira. Razlika između modela također je poučna. Opus 4.7 ranije se veže za teoriju, ali se može zaključati u pogrešnu. GPT-5.5 češće generira širi skup hipoteza, ali teže komprimira opažanja u jedan plan i provede ga. Jedan model prebrzo zatvara slučaj, drugi ga ne zatvara dovoljno. To je razlog zašto ARC-AGI-3 vrijedi pratiti. Ne zato što jedan niski rezultat dokazuje da "AI ne razumije", nego zato što pokazuje koje vrste pogrešaka će agenti nositi u web alate, interne sustave i dokumentaciju bez jasnih uputa.
