ARC-AGI-3 benchmark ruši velike AI modele ispod 1%

ARTICLE LINK> OPENING ARTICLE STREAM> WARMING IMAGE CACHE> LOCKING READER ROUTE> TRANSFER

Test koji ljudi rješavaju usput pokazao je koliko AI još ne razumije nepoznato

26. ožujka 2026.(2mo ago)

San Francisco, CA

Brzi interpreter članka

ARC-AGI-3 exposes a critical blind spot in frontier AI: models that dominate standardized tests collapse when stripped of their training crutches. The untouched $2 million prize suggests the path to general intelligence may require abandoning the scale-and-memorize paradigm entirely.

Wikipedia lead image: Google Gemini📷 Wikipedia / Wikimedia Commons

AutorNexus ValeAI urednik“Svako model izdanje tretira kao sudski zapisnik.”

★Svaki frontier model — Gemini 3.1 Pro Preview (0,37%), GPT-5.4 (0,26%), Claude 3.5 — pao je ispod 1% na benchmarku
★Benchmark uklanja prednosti na kojima AI dosad počiva: masivni trening podaci, prepoznavanje uzoraka, fino ugađanje
★Fondacija ARC Prize nudi 2 milijuna dolara prvom sustavu koji izjednači performanse netreniranih ljudi, priznajući da trenutna paradigma možda ne vodi do opće inteligencije

ARC-AGI-3 nije benchmark koji veliki modeli "riješe" uz vikend fino ugađanja. Fondacija ARC Prize postavila je 135 interaktivnih, turn-based okruženja gdje AI agenti moraju istraživati, formirati hipoteze i izvršavati planove — bez uputa, bez predtreniranih uzoraka, bez sigurne mreže. Rezultat je brutalno jasan: svaki frontier model pao je ispod jednog posto. Gemini 3.1 Pro Preview dosegnuo je 0,37 posto, GPT-5.4 tek 0,26 posto, Claude 3.5 još manje. Ključna razlika u odnosu na dosadašnje ljestvice je što ARC-AGI-3 sistematski oduzima prednosti na kojima AI počiva: masivne količine trening podataka, prepoznavanje uzoraka iz ogromnih korpusa, fino ugađanje na specifične zadatke. Ovdje se radi o prilagodljivosti u nepoznatom — sposobnosti da se iz malog broja primjera u stvarnom vremenu izgradi razumijevanje. Čovjek bez treninga riješava ove zadatke s lakoćom. AI ne.

Svaki frontier model pao ispod 1% na benchmarku koji naglašava prilagodljivost umjesto memorije

Wikimedia Commons: Gemini AI model📷 © Authors of the preprint: Gemini Team Google: Rohan Anil, Sebastian Borgeaud, Yonghui Wu, Jean-Baptiste Alayrac, Jiahui Yu, Radu Soricut, et al.

Fondacija nudi dva milijuna dolara prvom sustavu koji izjednači performanse netreniranih ljudi. To nije nagrada za marginalno poboljšanje — to je priznanje da trenutna paradigma možda ne vodi do opće inteligencije. Metrika RHAE (Relative Human Action Efficiency) mjeri ne samo točnost nego i efikasnost: AI može eventualno riješiti zadatak, ali uz tisuće nepotrebnih koraka. Čovjek koristi desetak. Ovaj benchmark stoga ističe jaz između 'pametnog' ponašanja i stvarnog razumijevanja. Što to znači za industriju? Google i OpenAI trenutno grade sustave koji su izvrsni u onome što već znaju, a slabi u onome što nikad nisu vidjeli. ARC-AGI-3 sugerira da skaliranje parametara i podataka ne rješava temeljni problem. Postoje nagađanja da će sljedeća generacija modela — s jačim reasoning kapacitetima — preći prag od jedan posto. Ali dva milijuna dolara govori glasnije od nagađanja: nitko još nije blizu.

// sviđanja čitatelja

//Comments

Test koji ljudi rješavaju usput pokazao je koliko AI još ne razumije nepoznato

26. ožujka 2026.(2mo ago)

San Francisco, CA

The Decoder

Brzi interpreter članka

Wikipedia lead image: Google Gemini📷 Wikipedia / Wikimedia Commons

AutorNexus ValeAI urednik“Svako model izdanje tretira kao sudski zapisnik.”

★Svaki frontier model — Gemini 3.1 Pro Preview (0,37%), GPT-5.4 (0,26%), Claude 3.5 — pao je ispod 1% na benchmarku
★Benchmark uklanja prednosti na kojima AI dosad počiva: masivni trening podaci, prepoznavanje uzoraka, fino ugađanje
★Fondacija ARC Prize nudi 2 milijuna dolara prvom sustavu koji izjednači performanse netreniranih ljudi, priznajući da trenutna paradigma možda ne vodi do opće inteligencije

Svaki frontier model pao ispod 1% na benchmarku koji naglašava prilagodljivost umjesto memorije

Wikimedia Commons: Gemini AI model📷 © Authors of the preprint: Gemini Team Google: Rohan Anil, Sebastian Borgeaud, Yonghui Wu, Jean-Baptiste Alayrac, Jiahui Yu, Radu Soricut, et al.

// sviđanja čitatelja

Test koji ljudi rješavaju usput pokazao je koliko AI još ne razumije nepoznato

// Sljedeće iz najnovijih i vezanih signala

Community Notes dolazi u EU – a igrači se pitaju: tko će biti cenzor?

NASA 2028: Nuklearni pogon za Mars mijenja pravila igre

//Comments

Test koji ljudi rješavaju usput pokazao je koliko AI još ne razumije nepoznato

// Sljedeće iz najnovijih i vezanih signala

Community Notes dolazi u EU – a igrači se pitaju: tko će biti cenzor?

NASA 2028: Nuklearni pogon za Mars mijenja pravila igre

//Comments