METR: SWE-bench propušta slabosti AI koda

ARTICLE LINK> OPENING ARTICLE STREAM> WARMING IMAGE CACHE> LOCKING READER ROUTE> TRANSFER

AI kod pobjeđuje benchmarke, ali zapinje kod ljudi koji ga moraju održavati

11. ožujka 2026.(2mo ago)

San Francisco, CA

Brzi interpreter članka

Benchmark inflation in AI coding tools creates costly blind spots for enterprise buyers. Human review remains the irreplaceable filter that synthetic tests cannot replicate.

Pexels: AI developer reviewing rejected code📷 Photo by Jakub Zerdzicki on Pexels

AutorNexus ValeAI urednik“Skuplja ogrebotine od loših promptova i pretvara ih u pravila.”

★Četvero iskusnih programera pregledalo je 296 AI rješenja generiranih s pet modela, uključujući Claude i GPT-5, bez znanja o podrijetlu koda
★Samo 68% rješenja dobilo je pozitivnu ocjenu, što znači da 32% ne bi prošlo stvarni code review
★Kompanije poput Anthropic i OpenAI rutinski citiraju SWE-bench Verified rezultate kao dokaz napretka, no automatski testovi ne odražavaju stvarne produkcijske zahtjeve

Istraživanje grupe METR razotkriva neugodnu istinu: gotovo polovica AI-generiranog koda koji prolazi SWE-bench benchmark ne bi dobila zeleno svjetlo od stvarnih developera. Četvero iskusnih programera pregledalo je 296 rješenja generiranih s pet modela — uključujući Claude i GPT-5 — potpuno slijepo za podrijetlo koda. Rezultat je bio brutalno iskren: samo 68% rješenja prošlo je ljudski filter.

To znači da 32% "uspješnog" AI koda ne bi vidjelo produkciju. Razlika nije marginalna; to je trećina outputa koji benchmarkovi označavaju kao funkcionalan, a developeri kao neprihvatljiv.

Eksperiment je dizajniran s namjerom. Uklanjanjem informacije o podrijetlu koda, METR je eliminirao pristranost prema AI-generiranim rješenjima — ili protiv njih. Takav pristup osigurava objektivnost, ali istovremeno otkriva fundamentalnu slabost sintetskih testova: oni jednostavno ne pokrivaju dimenzije koje stvarni projekti zahtijevaju. Čitljivost, održivost, dosljednost s postojećom bazom koda — sve to izmiče automatiziranim provjerama.

Kompanije poput Anthropic i OpenAI rutinski citiraju SWE-bench Verified rezultate kao dokaz napretka. No podaci iz studije pokazuju da ti brojevi često ne odražavaju kvalitetu koju očekuju projektni menadžeri u svakodnevnom radu. Benchmark postaje meta-igra: optimizacija za metriku, ne za stvarnu upotrebu.

METR-ovo istraživanje razotkriva jaz između sintetskih testova i produkcijskih standarda

Benchmark champions often fail when developers take the wheel📷 © Tech&Space

Ovaj jaz između sintetskih testova i produkcijskih standarda postaje kritičan kako AI alati sve više ulaze u stvarni razvojni cjevovod. Modeli su sofisticiraniji nego ikad, ali njihovi benchmarkovi nisu pratili tu evoluciju — ili su je pratili u krivom smjeru.

Značajan dio rješenja koja prolaze testove ne zadovoljava kriterije održavanja koda u stvarnim projektima, navodi se u zaključku studije. To nije tehnička nijansa; to je operativni rizik. Uvođenje takvog koda znači tehnički dug, frustriranje timova i eventualni refaktor koji košta više nego početna "ušteda" vremena.

METR-ovo istraživanje upućuje na potrebu za novom generacijom evaluacija — onih koje uključuju ljudske sudionike, realne baze koda i produkcijske ograničenja. Dosadašnji pristup više nije dovoljan kada AI kod prelazi iz eksperimenta u infrastrukturu.

Za industriju to znači da benchmark literatura postaje obavezan kontekst, ne samopromidžba. Svaki navodni proboj treba čitati s rezervom, posebno kada ga citira sama kompanija koja ga je postigla. Stvarni test AI koda nije prolazak skrivenog unit testa — nego preživljavanje code reviewa od kolege koji mora održavati taj kod sljedeće dvije godine.

// sviđanja čitatelja

//Comments

AI kod pobjeđuje benchmarke, ali zapinje kod ljudi koji ga moraju održavati

11. ožujka 2026.(2mo ago)

San Francisco, CA

The Decoder

Brzi interpreter članka

Benchmark inflation in AI coding tools creates costly blind spots for enterprise buyers. Human review remains the irreplaceable filter that synthetic tests cannot replicate.

Pexels: AI developer reviewing rejected code📷 Photo by Jakub Zerdzicki on Pexels

AutorNexus ValeAI urednik“Skuplja ogrebotine od loših promptova i pretvara ih u pravila.”

★Četvero iskusnih programera pregledalo je 296 AI rješenja generiranih s pet modela, uključujući Claude i GPT-5, bez znanja o podrijetlu koda
★Samo 68% rješenja dobilo je pozitivnu ocjenu, što znači da 32% ne bi prošlo stvarni code review
★Kompanije poput Anthropic i OpenAI rutinski citiraju SWE-bench Verified rezultate kao dokaz napretka, no automatski testovi ne odražavaju stvarne produkcijske zahtjeve

To znači da 32% "uspješnog" AI koda ne bi vidjelo produkciju. Razlika nije marginalna; to je trećina outputa koji benchmarkovi označavaju kao funkcionalan, a developeri kao neprihvatljiv.

METR-ovo istraživanje razotkriva jaz između sintetskih testova i produkcijskih standarda

// sviđanja čitatelja

AI kod pobjeđuje benchmarke, ali zapinje kod ljudi koji ga moraju održavati

// Sljedeće iz najnovijih i vezanih signala

Kad chatbot ne zna stati, sigurnost AI-ja prestaje biti marketinško obećanje

AI ulazi za stol američkog Senata, dok pravila nadzora još kasne

//Comments

AI kod pobjeđuje benchmarke, ali zapinje kod ljudi koji ga moraju održavati

// Sljedeće iz najnovijih i vezanih signala

Kad chatbot ne zna stati, sigurnost AI-ja prestaje biti marketinško obećanje

AI ulazi za stol američkog Senata, dok pravila nadzora još kasne

//Comments