Najskuplja AI pogreška možda nije kriv rezultat, nego zadatak koji model nije odbio
AI matematički sustav pred pločom punom jednadžbi zastaje pred crvenom oznakom da je premisa zadatka nevaljana.📷 AI-generated image / TECH&SPACE
- ★SOOHAK ima 340 valjanih Challenge zadataka i 99 namjerno neispravnih Refusal zadataka.
- ★Gemini 3 Pro vodi Challenge skup s 30 posto, ispred GPT-5 s 26 posto i Claude Opus 4.5 s 10 posto.
- ★Nijedan model ne prelazi 50 posto na Refusal skupu, gdje je točan odgovor prepoznati grešku u zadatku.
Najzanimljiviji dio novog matematičkog benchmarka nije to što AI modeli griješe. Zanimljivo je što griješe s držanjem asistenta koji je upravo pronašao elegantan dokaz, iako zadatak nema valjanu postavku. Prema izvještaju The Decodera, SOOHAK je sastavio konzorcij od 64 matematičara s ukupno 439 originalnih zadataka. Od toga je 340 u Challenge skupu, a 99 u Refusal skupu, gdje su problemi namjerno pogrešni ili nerješivi.
To je bitna promjena u odnosu na uobičajene AI matematičke testove. Model ne dobiva bodove samo zato što proizvede broj, dokaz ili uvjerljivo oblikovan odgovor. Na neispravnom zadatku mora prepoznati i imenovati grešku, što je mnogo bliže stvarnom istraživačkom radu nego natjecateljskom pogađanju obrasca. Ovaj pristup naglašava epistemološku kočnicu – sposobnost procjene vlastitih ograničenja – umjesto samo rješavanja problema po bilo koju cijenu.
Novi matematički benchmark kažnjava modele koji samouvjereno rješavaju pokvarene zadatke
Bliska scena evaluacijskog stola s dvama stupcima, valid problem i broken premise, gdje model mora odbiti pogrešan zadatak umjesto nastaviti računati.📷 AI-generated image / TECH&SPACE
Na Challenge dijelu, Googleov Gemini 3 Pro vodi s 30 posto uspješnosti. Iza njega su GPT-5 s 26 posto i Claude Opus 4.5 s 10 posto, prema dostupnim podacima iz izvornog izvještaja. To nisu zanemarivi rezultati, ali nisu ni dokaz da su modeli postali autonomni matematičari s kalendarom punim seminara.
Pravi hladan tuš dolazi na Refusal skupu. Nijedan model ne prelazi 50 posto u prepoznavanju nerješivih zadataka, a GLM-5 je najbolji s rezultatom malo ispod te granice. Više računanja pomaže modelima da riješe zadatke, ali prema benchmarku ne pomaže im znatno da priznaju kada zadatak nema smisla. SOOHAK tako mjeri disciplinu koja je ključna za istraživački rad: sposobnost rezoniranja o vlastitim ograničenjima.

