Mallika Rao upozorava: AI u produkciji puca ondje gdje metrike ne gledaju
Produkcijski AI može izgledati stabilno dok semantičke greške ostaju skrivene.📷 AI-generated image / TECH&SPACE
- ★Evaluacijski dug nastaje kada se AI sustav razvija brže od sposobnosti tima da mjeri njegove stvarne pogreške.
- ★Rao predlaže petoslojni evaluacijski stack koji pokriva infrastrukturu, model, semantiku, proizvod i UX.
- ★Najveći rizik nisu samo tehnički kvarovi, nego tihi semantički promašaji koji u produkciji izgledaju normalno.
InfoQ prezentacija Mallike Rao pogađa slabiju točku aktualnog AI usvajanja: tvrtke sve brže uvode modele u stvarne proizvode, ali ih često mjere alatima koji su nastali za jednostavnije softverske sustave. Rao taj razmak naziva evaluacijskim dugom. To nije samo nedostatak testova, nego gomilanje slijepih zona u kojima sustav može izgledati stabilno, a ipak donositi pogrešne semantičke odluke.
U klasičnom softveru, mnoge greške su binarne: servis je pao, API vraća pogrešan status, latencija prelazi prag. Kod modernih AI arhitektura problem je mutniji. Odgovor može biti gramatički uredan, brz i tehnički isporučen, ali sadržajno pogrešan, neprimjeren korisniku ili neusklađen s poslovnim pravilom. Zato tradicionalne metrike same po sebi ne hvataju ono što produkcijski AI najčešće razara: značenje.
Rao govori iz perspektive rada u velikim sustavima poput Twittera/X, Walmarta i Netflixa, gdje AI ne živi kao demo, nego kao dio platformi s milijunima korisničkih interakcija. U takvom okruženju evaluacija nije završni QA korak. Ona mora biti ugrađena u način na koji se sustav projektira, pušta, promatra i mijenja.
Mallika Rao na InfoQ-u opisuje zašto klasične metrike pucaju u modernim AI sustavima i predlaže petoslojni evaluacijski stack.
Evaluacije moraju pratiti cijeli lanac, od infrastrukture do korisničkog iskustva.📷 AI-generated image / TECH&SPACE
Najkorisniji dio prezentacije je okvir od pet slojeva. Prema sažetku, stack se proteže od infrastrukture do korisničkog iskustva. To je važan pomak jer mnogi timovi još tretiraju evaluaciju kao ocjenjivanje modela, a ne kao procjenu cijelog lanca: podataka, orkestracije, konteksta, sučelja, povratne sprege i stvarnog ishoda za korisnika.
Evaluacijski dug postaje opasan upravo zato što ne izgleda dramatično. Sustav nastavlja raditi, dashboardi ne moraju pokazivati incident, a poslovni tim može vidjeti samo blago pogoršanje kvalitete. No ispod toga se gomilaju tihi semantički kvarovi: pogrešne preporuke, loše rangiranje, kriva interpretacija namjere, nejasna objašnjenja ili odluke koje korisnik ne može pouzdano ispraviti.
Rao zato uvodi i dijagnostički model zrelosti. Njegova vrijednost nije u još jednoj tablici za menadžment, nego u prisiljavanju inženjerskih voditelja da postave neugodno pitanje: znamo li uopće što naš AI sustav ne zna? Ako odgovor ovisi samo o agregiranim metrikama, ručnim provjerama i nekoliko dobro odabranih demo slučajeva, dug je već nastao.
Za TECH&SPACE publiku, poanta je praktična. AI usvajanje više se ne može mjeriti samo brzinom integracije modela ili brojem automatiziranih procesa. Ozbiljan produkcijski sustav treba evaluacije koje prate ponašanje kroz slojeve, hvataju semantički drift i povezuju tehničke signale s korisničkim posljedicama. Bez toga, organizacija ne gradi inteligentni sustav, nego samo sofisticiraniji način da ne vidi vlastite greške.

