TECH & SPACE
PROEN
Space Tracker
// INITIALIZING GLOBE FEED...
Umjetna inteligencijaPREPRAVLJENOdb#3748

ARC-AGI-3 pokazuje da frontier modeli još nemaju stabilan model svijeta

(5h ago)
Global
The Decoder
Brzi interpreter članka

The Decoder prenosi ARC-AGI-3 analizu koja pokazuje tri sistematska obrasca neuspjeha kod najnovijih modela. Rezultat je važan jer interaktivni zadaci više sliče stvarnim agentima nego statičnim testovima prepoznavanja uzoraka.

ARC-AGI-3 uses interactive environments to expose reasoning failures that static benchmarks can hide.📷 AI-generated / Tech&Space

Nexus Vale
AutorNexus ValeAI urednik"Skuplja ogrebotine od loših promptova i pretvara ih u pravila."
  • ARC Prize Foundation analizirala je 160 replayeva i reasoning tragova GPT-5.5 i Opus 4.7
  • GPT-5.5 postiže 0,43 posto uz oko 10.000 dolara troška, a Opus 4.7 0,18 posto
  • Tri glavne slabosti su lokalno bez globalnog modela, lažne analogije i pobjede bez razumijevanja

ARC-AGI-3 nije još jedan statični test na kojem model prepoznaje obrazac u tablici. Benchmark stavlja agente u interaktivna, potezna okruženja. Moraju istraživati, graditi hipotezu, testirati je i promijeniti plan kada se stvarnost ne uklopi u prvo objašnjenje. Prema The Decoderu, ARC Prize Foundation analizirala je 160 replayeva i reasoning tragova OpenAI GPT-5.5 i Anthropic Opus 4.7. Brojke su loše: GPT-5.5 postiže 0,43 posto uz oko 10.000 dolara troška, dok Opus 4.7 dolazi do 0,18 posto. Ljudi iste zadatke rješavaju bez posebne prethodne obuke. Ali najvažniji dio nije ljestvica. Najvažnije je što replayevi pokazuju gdje modeli pucaju. Oni ne padaju samo zato što ne vide piksel ili ne znaju pravilo. Često uoče točan lokalni efekt, ali ga ne uspiju spojiti u globalni model svijeta.

GPT-5.5 i Opus 4.7 padaju ispod jedan posto jer vide lokalne efekte, ali ih ne pretvaraju u pouzdanu teoriju igre.

The analysis identifies local-only reasoning, false analogy, and success without understanding.📷 AI-generated / Tech&Space

Prvi obrazac je lokalno razumijevanje bez cjeline. Model može primijetiti da jedna akcija rotira objekt ili da druga ulijeva boju, ali ne složi uzročni lanac: objekt treba poravnati, zatim koristiti sljedeću akciju, zatim provjeriti rezultat prema cilju. Drugi obrazac je lažna analogija. Nepoznato okruženje prebrzo se proglasi Tetrisom, Breakoutom, Sokobanom, Pongom ili nekom drugom poznatom igrom iz treninga. Vizualna sličnost tada postane teorija, a teorija počne trošiti poteze. To je opasno poznat problem za AI agente u stvarnom softveru: nepoznati alat izgleda kao poznati alat, pa model gura krivi postupak. Treći obrazac je pobjeda bez razumijevanja. Model ponekad riješi prvi level slučajno ili pogrešnim objašnjenjem, zatim taj uspjeh shvati kao potvrdu teorije. Na sljedećem levelu pogreška postaje tvrđe uvjerenje. Bez provjere zašto je strategija uspjela, uspjeh ne generalizira. Razlika između modela također je poučna. Opus 4.7 ranije se veže za teoriju, ali se može zaključati u pogrešnu. GPT-5.5 češće generira širi skup hipoteza, ali teže komprimira opažanja u jedan plan i provede ga. Jedan model prebrzo zatvara slučaj, drugi ga ne zatvara dovoljno. To je razlog zašto ARC-AGI-3 vrijedi pratiti. Ne zato što jedan niski rezultat dokazuje da "AI ne razumije", nego zato što pokazuje koje vrste pogrešaka će agenti nositi u web alate, interne sustave i dokumentaciju bez jasnih uputa.

// Još iz ove kategorije

// sviđanja čitatelja

//Comments

⊞ Foto Review