ARTICLE LINK> OPENING ARTICLE STREAM> WARMING IMAGE CACHE> LOCKING READER ROUTE> TRANSFER

// INITIALIZING GLOBE FEED...

Umjetna inteligencijaPREPRAVLJENOdb#4660

Ara Khan iz Clinea: pravi test AI agenata nije demo, nego regresija

23. svibnja 2026.(6d ago)

Global

Brzi interpreter članka

U novom DeepLearning.AI videu Ara Khan objašnjava zašto je Cline prešao s pozicije “evalovi su beskorisni” na evalove kao jezgru petlje za poboljšanje agenata. Teza je pragmatična: evalovi varaju, stare i traže interpretaciju, ali su i dalje bolji od razvoja vođenog čistim dojmom.

Evalovi kao kontrolna ploča za popravljanje AI agenata.📷 AI-generated image / TECH&SPACE

AutorNexus ValeAI urednik“Još uvijek vjeruje da se model prvo mora objasniti, pa tek onda isporučiti.”

★Ara Khan opisuje zaokret Clinea od skepticizma prema evalovima do njihove upotrebe u petlji poboljšanja agenata.
★Glavna poruka nije da su evalovi objektivna istina, nego da daju stabilniji signal od neformalnog testiranja po dojmu.
★Vrijednost evalova ovisi o heuristikama: kako se pokreću, tumače, održavaju i pretvaraju u konkretne promjene agenata.

U novom DeepLearning.AI videu, snimljenom u okviru AI Dev 26 x SF programa, Ara Khan iz Clinea uzima jednu od najnezahvalnijih tema u razvoju AI agenata: evaluacije koje nitko potpuno ne voli, ali ih ozbiljni timovi sve teže mogu ignorirati. Naslov predavanja, “Evals Are Broken Use Them Anyway”, dobro pogađa ton. Ovo nije obrana evalova kao svete metrike, nego obrana discipline u području u kojem “meni se čini bolje” vrlo brzo postane skupa laž.

Khan polazi od vlastitog zaokreta: od stava da su evalovi beskorisni do toga da postanu ključan dio petlje za poboljšanje agenata. To je važan detalj jer priča ne dolazi iz laboratorijske prezentacije o jednoj velikoj brojci, nego iz rada na alatu koji mora preživjeti neuredne razvojne zadatke, korisničke rubne slučajeve i promjene modela. Cline je upravo takav kontekst: agent za kodiranje u kojem male regresije mogu značiti razliku između korisnog asistenta i sustava koji samouvjereno troši vrijeme.

DeepLearning.AI talk iz SF-a pretvara frustraciju oko mjerenja AI agenata u praktičan okvir: manje vjere u dojam, više ponovljivih provjera.

Razlika između dojma i ponovljivog signala vidi se u tragovima zadataka.📷 AI-generated image / TECH&SPACE

Središnja teza je jednostavna: evalovi su slomljeni jer nikada ne mjere cijelu stvarnost. Mogu favorizirati krivi stil odgovora, brzo zastarjeti, promašiti stvarne korisničke namjere ili stvoriti lažan osjećaj napretka. Ali alternativa često nije bolja znanost, nego razvoj po dojmu. Ako se agent “čini pametnijim” nakon promjene prompta, modela ili alata, to još ne znači da je stabilniji, korisniji ili manje sklon regresijama.

Zato Khan govori o heuristikama: kako interpretirati rezultate, kada pokretati evalove, kako ih graditi i zašto ih ipak koristiti. To je bliže uredničkom radu nego čistoj automatici. Eval nije presuda; eval je signal koji treba čitati u kontekstu. Ako jedan benchmark skoči, ali stvarni tokovi rada pucaju, brojka je dekoracija. Ako eval uporno hvata istu vrstu pogreške, čak i nesavršena metrika postaje operativno korisna.

U širem AI ekosustavu to se uklapa u pomak prema testiranju agenata kao sustava, a ne samo modela. Projekti poput OpenAI Evals već su popularizirali ideju ponovljivih provjera, ali agenti dodaju dodatne slojeve: alate, memoriju, datotečni sustav, lanac odluka i korisnički cilj koji se mijenja tijekom zadatka. Tu jedna točna ili netočna rečenica nije dovoljna metrika.

Najkorisniji dio Khanove poruke zato je anti-hype. Evals nisu čarobna kontrolna ploča za istinu. Oni su radni instrument za timove koji žele znati jesu li nešto stvarno popravili ili su samo dobili bolji demo. U 2026., kada agenti ulaze u svakodnevne razvojne tokove, ta razlika postaje ozbiljna inženjerska tema.

TECH&SPACE editorial infographic — Petlja poboljšanja agenta od promjene do nove provjere.📷 AI-generated image / TECH&SPACE

Openai Evals Them Anyway AI Agents AI Benchmarking AI Video

// Sljedeće iz najnovijih i vezanih signala

AI Voice Reconstruction From Cockpit Records Has Opened a New Public Docket Crisis

Prethodni članak

National Transportation Safety Board otkrio je novu slabost javnih arhiva: sliku zvuka

Cosmic dust is not a nuisance, it is the start of stars and planets

Sljedeći članak

Universe Today: svemirska prašina je početni hardver za zvijezde i planete

// sviđanja čitatelja

//Comments

Uredi u foto-review →