ARTICLE LINK> OPENING ARTICLE STREAM> WARMING IMAGE CACHE> LOCKING READER ROUTE> TRANSFER

Umjetna inteligencijaPREPRAVLJENOdb#3047

Kad AI vidi prazninu: modeli izmišljaju medicinske nalaze bez slike

30. ožujka 2026.(2mo ago)

Stanford, United States

Brzi interpreter članka

StanfordresearchshowstopmultimodalAImodelsconfidentlyhallucinatemedicalimagedescriptionswhengivennovisualinput,retainingupto80%ofbenchmarkscores.Currentevaluationframeworksfailtodetectthis'mirageinvision'vulnerability,posingrealrisksformedicalandsafetyapplications.

Wikimedia Commons: Anthropic Claude Opus 4.5📷 © Прикли

AutorNexus ValeAI urednik“Svako model izdanje tretira kao sudski zapisnik.”

★StanfordovPhantom-0setod200pitanjabezslikapokazujedamodelizadržavaju70-80%standardnihbenchmarkrezultata,izmišljajućianatomskedetaljeikliničkenarative.
★Fenomen'miražuviđenju'nijetekakademskazanimljivost–umedicinskimisigurnosnimaplikacijamalažnedijagnozemoguimatiozbiljneposljedice.
★Postojećievaluacijskiokvirizaostajuzasofisticiranošćumodela,neuspijevajućidetektiratitemeljnuranjivostuprocjenivjerodostojnostiulaznihpodataka.

Multimodalni AI modeli — GPT-5, Gemini 3 Pro, Claude Opus 4.5 — danas su autoriteti za vizualnu interpretaciju. No što se dogodi kad im se ne pruži nijedan piksel? Stanfordovo istraživanje pokazuje da modeli bez problema generiraju detaljne medicinske dijagnoze i anatomske opise iz potpune praznine. Phantom-0 set od 200 pitanja bez slika postigao je 70–80 posto standardnih benchmark rezultata. Modeli nisu samo pogađali — izmišljali su uvjerljive kliničke narative, navodili specifične strukture tkiva i argumentirali svoje 'zapažanje' s lažnom sigurnošću. Fenomen 'miraž u viđenju' otkriva da ovi sustavi ne razlikuju stvarni vizualni ulaz od vlastitih statističkih halucinacija. U kontekstu medicine ili sigurnosnih analiza takvo ponašanje nije zabavna anegdota, već sistemska prijetnja.

Stanfordovoistraživanjeotkrivakakovodećimultimodalnimodelisamouvjerenoizmišljajumedicinskedijagnozebezikakvogvizualnogunosa

Wikimedia Commons: Stanford University📷 © Frank Schulenburg

Zašto postojeći benchmarkovi to ne ulove? Phantom-0 je eksplicitno konstruiran da istakne praznine u standardnim evaluacijama. Tradicionalni testovi mjere opću točnost, ali zanemaruju temeljno pitanje: vjeruje li model u ono što vidi, ili u ono što očekuje da vidi? Stanfordov test obuhvaća 20 kategorija i pokazuje kako modeli nude 'objašnjenja' za percepciju koja nikad nije postojala. To je ranjivost u samoj arhitekturi procjene vjerodostojnosti ulaznih podataka. Evaluacijski okviri moraju evoluirati — ne samo mjeriti što model kaže, već i pod kojim uvjetima to kaže. Bez takve korekcije, lažnoviđenje ostaje skriveni rizik u svakom kliničkom ili operativnom deploymentu.

Anthropic Claude Gemini Google Multimodalaimodelslikegpt-5 Multimodalniaimodelipoputgpt-5

// Sljedeće iz najnovijih i vezanih signala

All Will Fall Turns Ocean Colonies Into Structural Trouble

Prethodni članak

All Will Fall igra na kolaps kao strategiju, ne samo kao fiziku

MeerKAT’s rare triple-double galaxy forces a rethink of black hole jets

Sljedeći članak

MeerKAT otkrio rijetku galaksiju s trostrukim radio-režnjevima

// sviđanja čitatelja

//Comments

Uredi u foto-review →