TECH&SPACE
LIVE FEEDMC v1.0
EN
// STATUS
ISS420 kmCREW7 aboardNEOs0 tracked todayKp0FLAREB1.0LATESTBaltic Whale and Fehmarn Delays Push Scandlines Toward Faste...ISS420 kmCREW7 aboardNEOs0 tracked todayKp0FLAREB1.0LATESTBaltic Whale and Fehmarn Delays Push Scandlines Toward Faste...
// INITIALIZING GLOBE FEED...
Umjetna inteligencijadb#3047

Lažno viđenje u AI: modele varaju slike koje nisu vidjeli

(4d ago)
Stanford, United States
the-decoder.com
Lažno viđenje u AI: modele varaju slike koje nisu vidjeli

Lažno viđenje u AI: modele varaju slike koje nisu vidjeli📷 © Tech&Space

  • Stanford otkriva 'miraž u viđenju'
  • 70-80% rezultata bez ulaznih podataka
  • Phantom-0 benchmark testira iluziju

Iako ih nismo vidjeli, oslanjamo se na njihovo mišljenje. Multimodalni AI modeli, poput GPT-5, Gemini 3 Pro i Claude Opus 4.5, generiraju detaljne opise slika i dijagnoze čak i kada im se ne pruži nijedan vizualni ulaz.

Izvještaj sa Stanforda otkriva kako ti modeli postižu 70 do 80 posto svojih standardnih benchmark rezultata na Phantom-0 setu od 200 pitanja bez ikakve slike. Ovaj fenomen, nazvan 'miraz u viđenju', nije tek akademska zanimljivost.

U medicinskim ili sigurnosnim aplikacijama lažne dijagnoze mogu rezultirati ozbiljnim posljedicama.

Jaz između benchmarka i realnosti u multimodalnim modelima

Jaz između benchmarka i realnosti u multimodalnim modelima📷 © Tech&Space

Jaz između benchmarka i realnosti u multimodalnim modelima

Stanfordovim testom obuhvaćene su 20 kategorija, a modeli nisu samo opisivali nepostojeće detalje već su nudili i uvjerljiva objašnjenja za svoju 'percepciju'. To nije samo pitanje performanse — radi se o temeljnoj ranjivosti u procjeni vjerodostojnosti ulaznih podataka.

Zašto benchmarki ne ulove ovaj problem? Phantom-0 je posebno dizajniran kako bi ukazao na praznine u standardnim evaluacijskim metodama.

Dok tradicionalni testovi mjere opću sposobnost modela, Phantom-0 usmjerava pažnju na njihov odnos prema nepostojećim vizualnim informacijama.

Ovo je ozbiljan problem koji zahtijeva pažnju i rješenje. Potrebno je razviti nove benchmarkove koji će ustanoviti stvarnu sposobnost multimodalnih modela. Tek tako možemo osigurati pouzdanost i sigurnost u kritičnim aplikacijama. Time ćemo spriječiti lažne dijagnoze i ozbiljne posljedice.

multimodal AI hallucination benchmarksAI image generation reliabilityvision-language model evaluationsynthetic data detection in AIbenchmark-reality gap in generative AI

//Comments