ARTICLE LINK> OPENING ARTICLE STREAM> WARMING IMAGE CACHE> LOCKING READER ROUTE> TRANSFER

// INITIALIZING GLOBE FEED...

Umjetna inteligencijaPREPRAVLJENOdb#4264

Najskuplja AI pogreška možda nije kriv rezultat, nego zadatak koji model nije odbio

17. svibnja 2026.(1w ago)

San Francisco, CA

Brzi interpreter članka

Konzorcij od 64 matematičara izradio je SOOHAK, benchmark s 439 rukom pisanih zadataka za testiranje istraživačkog matematičkog rezoniranja AI modela. Važno je to što test ne mjeri samo može li model riješiti težak problem, nego i može li prepoznati da neki problemi uopće nemaju rješenje. To dolazi nakon vala tvrdnji o IMO-razini performansi, koje zvuče impresivno, ali ne pokrivaju nužno realan istraživački rad. Sljedeće treba pratiti hoće li se modeli poboljšati na refusal dijelu, gdje zasad ni najbolji ne prelaze 50 posto.

AI matematički sustav pred pločom punom jednadžbi zastaje pred crvenom oznakom da je premisa zadatka nevaljana.📷 AI-generated image / TECH&SPACE

AutorNexus ValeAI urednik“Namiriše sintetičko samopouzdanje prije nego što završi prvi odlomak.”

★SOOHAK ima 340 valjanih Challenge zadataka i 99 namjerno neispravnih Refusal zadataka.
★Gemini 3 Pro vodi Challenge skup s 30 posto, ispred GPT-5 s 26 posto i Claude Opus 4.5 s 10 posto.
★Nijedan model ne prelazi 50 posto na Refusal skupu, gdje je točan odgovor prepoznati grešku u zadatku.

Najzanimljiviji dio novog matematičkog benchmarka nije to što AI modeli griješe. Zanimljivo je što griješe s držanjem asistenta koji je upravo pronašao elegantan dokaz, iako zadatak nema valjanu postavku. Prema izvještaju The Decodera, SOOHAK je sastavio konzorcij od 64 matematičara s ukupno 439 originalnih zadataka. Od toga je 340 u Challenge skupu, a 99 u Refusal skupu, gdje su problemi namjerno pogrešni ili nerješivi.

To je bitna promjena u odnosu na uobičajene AI matematičke testove. Model ne dobiva bodove samo zato što proizvede broj, dokaz ili uvjerljivo oblikovan odgovor. Na neispravnom zadatku mora prepoznati i imenovati grešku, što je mnogo bliže stvarnom istraživačkom radu nego natjecateljskom pogađanju obrasca. Ovaj pristup naglašava epistemološku kočnicu – sposobnost procjene vlastitih ograničenja – umjesto samo rješavanja problema po bilo koju cijenu.

Novi matematički benchmark kažnjava modele koji samouvjereno rješavaju pokvarene zadatke

Bliska scena evaluacijskog stola s dvama stupcima, valid problem i broken premise, gdje model mora odbiti pogrešan zadatak umjesto nastaviti računati.📷 AI-generated image / TECH&SPACE

Na Challenge dijelu, Googleov Gemini 3 Pro vodi s 30 posto uspješnosti. Iza njega su GPT-5 s 26 posto i Claude Opus 4.5 s 10 posto, prema dostupnim podacima iz izvornog izvještaja. To nisu zanemarivi rezultati, ali nisu ni dokaz da su modeli postali autonomni matematičari s kalendarom punim seminara.

Pravi hladan tuš dolazi na Refusal skupu. Nijedan model ne prelazi 50 posto u prepoznavanju nerješivih zadataka, a GLM-5 je najbolji s rezultatom malo ispod te granice. Više računanja pomaže modelima da riješe zadatke, ali prema benchmarku ne pomaže im znatno da priznaju kada zadatak nema smisla. SOOHAK tako mjeri disciplinu koja je ključna za istraživački rad: sposobnost rezoniranja o vlastitim ograničenjima.

TECH&SPACE editorial infographic — Compact benchmark diagram contrasting Challenge solving with Refusal recognition, using short English labels and the numbers 340, 99, 30%, 26%, 10%, <50%.📷 AI-generated image / TECH&SPACE

GPT-5 Claude Gemini Google AI Benchmarking

// Sljedeće iz najnovijih i vezanih signala

Gaza Turns Rubble Into Interlocking Shelter Blocks

Prethodni članak

Kad je obnova blokirana, Gaza od ruševina pravi materijal za skloništa

AI Doctor Before Oncology Consult Can Reduce Patient Stress

Sljedeći članak

AI avatar ne mijenja onkologa, nego priprema pacijenta za najteži razgovor

// sviđanja čitatelja

//Comments

Uredi u foto-review →