ARTICLE LINK> OPENING ARTICLE STREAM> WARMING IMAGE CACHE> LOCKING READER ROUTE> TRANSFER

// INITIALIZING GLOBE FEED...

Umjetna inteligencijaPREPRAVLJENOdb#5381

Mallika Rao upozorava: AI u produkciji puca ondje gdje metrike ne gledaju

29. svibnja 2026.(13h ago)

Global

Brzi interpreter članka

Mallika Rao u InfoQ prezentaciji uvodi pojam evaluacijskog duga kao skrivenog rizika u produkcijskom AI-ju. Umjesto oslanjanja na stare metrike, predlaže petoslojni evaluacijski stack koji povezuje infrastrukturu, model, proizvod i korisničko iskustvo.

Produkcijski AI može izgledati stabilno dok semantičke greške ostaju skrivene.📷 AI-generated image / TECH&SPACE

AutorNexus ValeAI urednik“Još uvijek vjeruje da se model prvo mora objasniti, pa tek onda isporučiti.”

★Evaluacijski dug nastaje kada se AI sustav razvija brže od sposobnosti tima da mjeri njegove stvarne pogreške.
★Rao predlaže petoslojni evaluacijski stack koji pokriva infrastrukturu, model, semantiku, proizvod i UX.
★Najveći rizik nisu samo tehnički kvarovi, nego tihi semantički promašaji koji u produkciji izgledaju normalno.

InfoQ prezentacija Mallike Rao pogađa slabiju točku aktualnog AI usvajanja: tvrtke sve brže uvode modele u stvarne proizvode, ali ih često mjere alatima koji su nastali za jednostavnije softverske sustave. Rao taj razmak naziva evaluacijskim dugom. To nije samo nedostatak testova, nego gomilanje slijepih zona u kojima sustav može izgledati stabilno, a ipak donositi pogrešne semantičke odluke.

U klasičnom softveru, mnoge greške su binarne: servis je pao, API vraća pogrešan status, latencija prelazi prag. Kod modernih AI arhitektura problem je mutniji. Odgovor može biti gramatički uredan, brz i tehnički isporučen, ali sadržajno pogrešan, neprimjeren korisniku ili neusklađen s poslovnim pravilom. Zato tradicionalne metrike same po sebi ne hvataju ono što produkcijski AI najčešće razara: značenje.

Rao govori iz perspektive rada u velikim sustavima poput Twittera/X, Walmarta i Netflixa, gdje AI ne živi kao demo, nego kao dio platformi s milijunima korisničkih interakcija. U takvom okruženju evaluacija nije završni QA korak. Ona mora biti ugrađena u način na koji se sustav projektira, pušta, promatra i mijenja.

Mallika Rao na InfoQ-u opisuje zašto klasične metrike pucaju u modernim AI sustavima i predlaže petoslojni evaluacijski stack.

Evaluacije moraju pratiti cijeli lanac, od infrastrukture do korisničkog iskustva.📷 AI-generated image / TECH&SPACE

Najkorisniji dio prezentacije je okvir od pet slojeva. Prema sažetku, stack se proteže od infrastrukture do korisničkog iskustva. To je važan pomak jer mnogi timovi još tretiraju evaluaciju kao ocjenjivanje modela, a ne kao procjenu cijelog lanca: podataka, orkestracije, konteksta, sučelja, povratne sprege i stvarnog ishoda za korisnika.

Evaluacijski dug postaje opasan upravo zato što ne izgleda dramatično. Sustav nastavlja raditi, dashboardi ne moraju pokazivati incident, a poslovni tim može vidjeti samo blago pogoršanje kvalitete. No ispod toga se gomilaju tihi semantički kvarovi: pogrešne preporuke, loše rangiranje, kriva interpretacija namjere, nejasna objašnjenja ili odluke koje korisnik ne može pouzdano ispraviti.

Rao zato uvodi i dijagnostički model zrelosti. Njegova vrijednost nije u još jednoj tablici za menadžment, nego u prisiljavanju inženjerskih voditelja da postave neugodno pitanje: znamo li uopće što naš AI sustav ne zna? Ako odgovor ovisi samo o agregiranim metrikama, ručnim provjerama i nekoliko dobro odabranih demo slučajeva, dug je već nastao.

Za TECH&SPACE publiku, poanta je praktična. AI usvajanje više se ne može mjeriti samo brzinom integracije modela ili brojem automatiziranih procesa. Ozbiljan produkcijski sustav treba evaluacije koje prate ponašanje kroz slojeve, hvataju semantički drift i povezuju tehničke signale s korisničkim posljedicama. Bez toga, organizacija ne gradi inteligentni sustav, nego samo sofisticiraniji način da ne vidi vlastite greške.

TECH&SPACE editorial infographic — Pet slojeva evaluacije prikazuje gdje se evaluacijski dug najčešće gomila.📷 AI-generated image / TECH&SPACE

Evaluation Debt Mallike Rao Modern AI AI Adoption Production AI Semantic Failures

// Sljedeće iz najnovijih i vezanih signala

Satellite Data Has Become Wartime Infrastructure

Prethodni članak

SpaceNews: rat Sjedinjenih Država i Irana pretvara satelitske karte u frontu

Lung Digital Twins Move Into Transplant Assessment

Sljedeći članak

Nature Medicine: digitalni blizanci pluća ciljaju najtežu odluku o donoru

// sviđanja čitatelja

//Comments

Uredi u foto-review →