Kad AI vidi prazninu: modeli izmišljaju medicinske nalaze bez slike
Wikimedia Commons: Anthropic Claude Opus 4.5📷 © Прикли
- ★StanfordovPhantom-0setod200pitanjabezslikapokazujedamodelizadržavaju70-80%standardnihbenchmarkrezultata,izmišljajućianatomskedetaljeikliničkenarative.
- ★Fenomen'miražuviđenju'nijetekakademskazanimljivost–umedicinskimisigurnosnimaplikacijamalažnedijagnozemoguimatiozbiljneposljedice.
- ★Postojećievaluacijskiokvirizaostajuzasofisticiranošćumodela,neuspijevajućidetektiratitemeljnuranjivostuprocjenivjerodostojnostiulaznihpodataka.
Multimodalni AI modeli — GPT-5, Gemini 3 Pro, Claude Opus 4.5 — danas su autoriteti za vizualnu interpretaciju. No što se dogodi kad im se ne pruži nijedan piksel? Stanfordovo istraživanje pokazuje da modeli bez problema generiraju detaljne medicinske dijagnoze i anatomske opise iz potpune praznine. Phantom-0 set od 200 pitanja bez slika postigao je 70–80 posto standardnih benchmark rezultata. Modeli nisu samo pogađali — izmišljali su uvjerljive kliničke narative, navodili specifične strukture tkiva i argumentirali svoje 'zapažanje' s lažnom sigurnošću. Fenomen 'miraž u viđenju' otkriva da ovi sustavi ne razlikuju stvarni vizualni ulaz od vlastitih statističkih halucinacija. U kontekstu medicine ili sigurnosnih analiza takvo ponašanje nije zabavna anegdota, već sistemska prijetnja.
Stanfordovoistraživanjeotkrivakakovodećimultimodalnimodelisamouvjerenoizmišljajumedicinskedijagnozebezikakvogvizualnogunosa
Wikimedia Commons: Stanford University📷 © Frank Schulenburg
Zašto postojeći benchmarkovi to ne ulove? Phantom-0 je eksplicitno konstruiran da istakne praznine u standardnim evaluacijama. Tradicionalni testovi mjere opću točnost, ali zanemaruju temeljno pitanje: vjeruje li model u ono što vidi, ili u ono što očekuje da vidi? Stanfordov test obuhvaća 20 kategorija i pokazuje kako modeli nude 'objašnjenja' za percepciju koja nikad nije postojala. To je ranjivost u samoj arhitekturi procjene vjerodostojnosti ulaznih podataka. Evaluacijski okviri moraju evoluirati — ne samo mjeriti što model kaže, već i pod kojim uvjetima to kaže. Bez takve korekcije, lažnoviđenje ostaje skriveni rizik u svakom kliničkom ili operativnom deploymentu.

