AI kod pobjeđuje benchmarke, ali zapinje kod ljudi koji ga moraju održavati
Pexels: AI developer reviewing rejected code📷 Photo by Jakub Zerdzicki on Pexels
- ★Četvero iskusnih programera pregledalo je 296 AI rješenja generiranih s pet modela, uključujući Claude i GPT-5, bez znanja o podrijetlu koda
- ★Samo 68% rješenja dobilo je pozitivnu ocjenu, što znači da 32% ne bi prošlo stvarni code review
- ★Kompanije poput Anthropic i OpenAI rutinski citiraju SWE-bench Verified rezultate kao dokaz napretka, no automatski testovi ne odražavaju stvarne produkcijske zahtjeve
Istraživanje grupe METR razotkriva neugodnu istinu: gotovo polovica AI-generiranog koda koji prolazi SWE-bench benchmark ne bi dobila zeleno svjetlo od stvarnih developera. Četvero iskusnih programera pregledalo je 296 rješenja generiranih s pet modela — uključujući Claude i GPT-5 — potpuno slijepo za podrijetlo koda. Rezultat je bio brutalno iskren: samo 68% rješenja prošlo je ljudski filter.
To znači da 32% "uspješnog" AI koda ne bi vidjelo produkciju. Razlika nije marginalna; to je trećina outputa koji benchmarkovi označavaju kao funkcionalan, a developeri kao neprihvatljiv.
Eksperiment je dizajniran s namjerom. Uklanjanjem informacije o podrijetlu koda, METR je eliminirao pristranost prema AI-generiranim rješenjima — ili protiv njih. Takav pristup osigurava objektivnost, ali istovremeno otkriva fundamentalnu slabost sintetskih testova: oni jednostavno ne pokrivaju dimenzije koje stvarni projekti zahtijevaju. Čitljivost, održivost, dosljednost s postojećom bazom koda — sve to izmiče automatiziranim provjerama.
Kompanije poput Anthropic i OpenAI rutinski citiraju SWE-bench Verified rezultate kao dokaz napretka. No podaci iz studije pokazuju da ti brojevi često ne odražavaju kvalitetu koju očekuju projektni menadžeri u svakodnevnom radu. Benchmark postaje meta-igra: optimizacija za metriku, ne za stvarnu upotrebu.
METR-ovo istraživanje razotkriva jaz između sintetskih testova i produkcijskih standarda
Benchmark champions often fail when developers take the wheel📷 © Tech&Space
Ovaj jaz između sintetskih testova i produkcijskih standarda postaje kritičan kako AI alati sve više ulaze u stvarni razvojni cjevovod. Modeli su sofisticiraniji nego ikad, ali njihovi benchmarkovi nisu pratili tu evoluciju — ili su je pratili u krivom smjeru.
Značajan dio rješenja koja prolaze testove ne zadovoljava kriterije održavanja koda u stvarnim projektima, navodi se u zaključku studije. To nije tehnička nijansa; to je operativni rizik. Uvođenje takvog koda znači tehnički dug, frustriranje timova i eventualni refaktor koji košta više nego početna "ušteda" vremena.
METR-ovo istraživanje upućuje na potrebu za novom generacijom evaluacija — onih koje uključuju ljudske sudionike, realne baze koda i produkcijske ograničenja. Dosadašnji pristup više nije dovoljan kada AI kod prelazi iz eksperimenta u infrastrukturu.
Za industriju to znači da benchmark literatura postaje obavezan kontekst, ne samopromidžba. Svaki navodni proboj treba čitati s rezervom, posebno kada ga citira sama kompanija koja ga je postigla. Stvarni test AI koda nije prolazak skrivenog unit testa — nego preživljavanje code reviewa od kolege koji mora održavati taj kod sljedeće dvije godine.

