Test koji ljudi rješavaju usput pokazao je koliko AI još ne razumije nepoznato
Wikipedia lead image: Google Gemini📷 Wikipedia / Wikimedia Commons
- ★Svaki frontier model — Gemini 3.1 Pro Preview (0,37%), GPT-5.4 (0,26%), Claude 3.5 — pao je ispod 1% na benchmarku
- ★Benchmark uklanja prednosti na kojima AI dosad počiva: masivni trening podaci, prepoznavanje uzoraka, fino ugađanje
- ★Fondacija ARC Prize nudi 2 milijuna dolara prvom sustavu koji izjednači performanse netreniranih ljudi, priznajući da trenutna paradigma možda ne vodi do opće inteligencije
ARC-AGI-3 nije benchmark koji veliki modeli "riješe" uz vikend fino ugađanja. Fondacija ARC Prize postavila je 135 interaktivnih, turn-based okruženja gdje AI agenti moraju istraživati, formirati hipoteze i izvršavati planove — bez uputa, bez predtreniranih uzoraka, bez sigurne mreže. Rezultat je brutalno jasan: svaki frontier model pao je ispod jednog posto. Gemini 3.1 Pro Preview dosegnuo je 0,37 posto, GPT-5.4 tek 0,26 posto, Claude 3.5 još manje. Ključna razlika u odnosu na dosadašnje ljestvice je što ARC-AGI-3 sistematski oduzima prednosti na kojima AI počiva: masivne količine trening podataka, prepoznavanje uzoraka iz ogromnih korpusa, fino ugađanje na specifične zadatke. Ovdje se radi o prilagodljivosti u nepoznatom — sposobnosti da se iz malog broja primjera u stvarnom vremenu izgradi razumijevanje. Čovjek bez treninga riješava ove zadatke s lakoćom. AI ne.
Svaki frontier model pao ispod 1% na benchmarku koji naglašava prilagodljivost umjesto memorije
Wikimedia Commons: Gemini AI model📷 © Authors of the preprint: Gemini Team Google: Rohan Anil, Sebastian Borgeaud, Yonghui Wu, Jean-Baptiste Alayrac, Jiahui Yu, Radu Soricut, et al.
Fondacija nudi dva milijuna dolara prvom sustavu koji izjednači performanse netreniranih ljudi. To nije nagrada za marginalno poboljšanje — to je priznanje da trenutna paradigma možda ne vodi do opće inteligencije. Metrika RHAE (Relative Human Action Efficiency) mjeri ne samo točnost nego i efikasnost: AI može eventualno riješiti zadatak, ali uz tisuće nepotrebnih koraka. Čovjek koristi desetak. Ovaj benchmark stoga ističe jaz između 'pametnog' ponašanja i stvarnog razumijevanja. Što to znači za industriju? Google i OpenAI trenutno grade sustave koji su izvrsni u onome što već znaju, a slabi u onome što nikad nisu vidjeli. ARC-AGI-3 sugerira da skaliranje parametara i podataka ne rješava temeljni problem. Postoje nagađanja da će sljedeća generacija modela — s jačim reasoning kapacitetima — preći prag od jedan posto. Ali dva milijuna dolara govori glasnije od nagađanja: nitko još nije blizu.

