Ara Khan iz Clinea: pravi test AI agenata nije demo, nego regresija
Evalovi kao kontrolna ploča za popravljanje AI agenata.📷 AI-generated image / TECH&SPACE
- ★Ara Khan opisuje zaokret Clinea od skepticizma prema evalovima do njihove upotrebe u petlji poboljšanja agenata.
- ★Glavna poruka nije da su evalovi objektivna istina, nego da daju stabilniji signal od neformalnog testiranja po dojmu.
- ★Vrijednost evalova ovisi o heuristikama: kako se pokreću, tumače, održavaju i pretvaraju u konkretne promjene agenata.
U novom DeepLearning.AI videu, snimljenom u okviru AI Dev 26 x SF programa, Ara Khan iz Clinea uzima jednu od najnezahvalnijih tema u razvoju AI agenata: evaluacije koje nitko potpuno ne voli, ali ih ozbiljni timovi sve teže mogu ignorirati. Naslov predavanja, “Evals Are Broken Use Them Anyway”, dobro pogađa ton. Ovo nije obrana evalova kao svete metrike, nego obrana discipline u području u kojem “meni se čini bolje” vrlo brzo postane skupa laž.
Khan polazi od vlastitog zaokreta: od stava da su evalovi beskorisni do toga da postanu ključan dio petlje za poboljšanje agenata. To je važan detalj jer priča ne dolazi iz laboratorijske prezentacije o jednoj velikoj brojci, nego iz rada na alatu koji mora preživjeti neuredne razvojne zadatke, korisničke rubne slučajeve i promjene modela. Cline je upravo takav kontekst: agent za kodiranje u kojem male regresije mogu značiti razliku između korisnog asistenta i sustava koji samouvjereno troši vrijeme.
DeepLearning.AI talk iz SF-a pretvara frustraciju oko mjerenja AI agenata u praktičan okvir: manje vjere u dojam, više ponovljivih provjera.
Razlika između dojma i ponovljivog signala vidi se u tragovima zadataka.📷 AI-generated image / TECH&SPACE
Središnja teza je jednostavna: evalovi su slomljeni jer nikada ne mjere cijelu stvarnost. Mogu favorizirati krivi stil odgovora, brzo zastarjeti, promašiti stvarne korisničke namjere ili stvoriti lažan osjećaj napretka. Ali alternativa često nije bolja znanost, nego razvoj po dojmu. Ako se agent “čini pametnijim” nakon promjene prompta, modela ili alata, to još ne znači da je stabilniji, korisniji ili manje sklon regresijama.
Zato Khan govori o heuristikama: kako interpretirati rezultate, kada pokretati evalove, kako ih graditi i zašto ih ipak koristiti. To je bliže uredničkom radu nego čistoj automatici. Eval nije presuda; eval je signal koji treba čitati u kontekstu. Ako jedan benchmark skoči, ali stvarni tokovi rada pucaju, brojka je dekoracija. Ako eval uporno hvata istu vrstu pogreške, čak i nesavršena metrika postaje operativno korisna.
U širem AI ekosustavu to se uklapa u pomak prema testiranju agenata kao sustava, a ne samo modela. Projekti poput OpenAI Evals već su popularizirali ideju ponovljivih provjera, ali agenti dodaju dodatne slojeve: alate, memoriju, datotečni sustav, lanac odluka i korisnički cilj koji se mijenja tijekom zadatka. Tu jedna točna ili netočna rečenica nije dovoljna metrika.
Najkorisniji dio Khanove poruke zato je anti-hype. Evals nisu čarobna kontrolna ploča za istinu. Oni su radni instrument za timove koji žele znati jesu li nešto stvarno popravili ili su samo dobili bolji demo. U 2026., kada agenti ulaze u svakodnevne razvojne tokove, ta razlika postaje ozbiljna inženjerska tema.

