Umjetna inteligencijadb#3047

Lažno viđenje u AI: modele varaju slike koje nisu vidjeli

20. travnja 2026.02:22(4d ago)

Stanford, United States

Lažno viđenje u AI: modele varaju slike koje nisu vidjeli📷 © Tech&Space

★Stanford otkriva 'miraž u viđenju'
★70-80% rezultata bez ulaznih podataka
★Phantom-0 benchmark testira iluziju

Iako ih nismo vidjeli, oslanjamo se na njihovo mišljenje. Multimodalni AI modeli, poput GPT-5, Gemini 3 Pro i Claude Opus 4.5, generiraju detaljne opise slika i dijagnoze čak i kada im se ne pruži nijedan vizualni ulaz.

Izvještaj sa Stanforda otkriva kako ti modeli postižu 70 do 80 posto svojih standardnih benchmark rezultata na Phantom-0 setu od 200 pitanja bez ikakve slike. Ovaj fenomen, nazvan 'miraz u viđenju', nije tek akademska zanimljivost.

U medicinskim ili sigurnosnim aplikacijama lažne dijagnoze mogu rezultirati ozbiljnim posljedicama.

Jaz između benchmarka i realnosti u multimodalnim modelima📷 © Tech&Space

Jaz između benchmarka i realnosti u multimodalnim modelima

Stanfordovim testom obuhvaćene su 20 kategorija, a modeli nisu samo opisivali nepostojeće detalje već su nudili i uvjerljiva objašnjenja za svoju 'percepciju'. To nije samo pitanje performanse — radi se o temeljnoj ranjivosti u procjeni vjerodostojnosti ulaznih podataka.

Zašto benchmarki ne ulove ovaj problem? Phantom-0 je posebno dizajniran kako bi ukazao na praznine u standardnim evaluacijskim metodama.

Dok tradicionalni testovi mjere opću sposobnost modela, Phantom-0 usmjerava pažnju na njihov odnos prema nepostojećim vizualnim informacijama.

Ovo je ozbiljan problem koji zahtijeva pažnju i rješenje. Potrebno je razviti nove benchmarkove koji će ustanoviti stvarnu sposobnost multimodalnih modela. Tek tako možemo osigurati pouzdanost i sigurnost u kritičnim aplikacijama. Time ćemo spriječiti lažne dijagnoze i ozbiljne posljedice.

multimodal AI hallucination benchmarksAI image generation reliabilityvision-language model evaluationsynthetic data detection in AIbenchmark-reality gap in generative AI

//Comments

Uredi u foto-review →