Najnoviji AI video modeli padaju tamo gdje demo mora imati posljedicu
AI video still fails the reality check📷 AI-generated image / TECH&SPACE
- ★WorldReasonBench mjeri plauzibilnost AI videa kroz 400 testova, ne samo vizualnu kvalitetu.
- ★Seedance 2.0 je ispred Veo 3.1 i Sora 2 u prijavljenim rezultatima benchmarka.
- ★Logičko zaključivanje ostaje najteža kategorija, što ograničava tvrdnje o pravim world modelima.
AI video generatori već znaju proizvesti kadar koji izgleda kao skupi demo iz budućnosti. Novi WorldReasonBench podsjeća na manje glamurozan detalj: scena može biti vizualno uvjerljiva i istodobno potpuno promašiti način na koji svijet funkcionira.
Benchmark ne mjeri primarno oštrinu, stil ili filmski dojam. Prema izvještaju The Decodera, testira fizičku i logičku plauzibilnost kroz 400 slučajeva u četiri područja: znanje o svijetu, scene usmjerene na ljude, logičko zaključivanje i zaključivanje iz informacija.
Rezultat je koristan hladan tuš. ByteDanceov Seedance 2.0 izlazi kao vodeći model, ispred Veo 3.1 i Sora 2, a u gotovo devet od deset statističkih ponavljanja ostaje na vrhu. Komercijalni modeli pritom postižu otprilike dvostruko bolje rezultate od open-source alternativa na ključnoj mjeri zaključivanja.
WorldReasonBench razdvaja lijep kadar od stvarne logike scene
A closer diagnostic view of a generated scene timeline, with objects and actions drifting out of logical order under benchmark inspection.📷 AI-generated image / TECH&SPACE
Ta razlika nije sitnica, ali nije ni dokaz da su zatvoreni modeli odjednom postali svjetski modeli u pravom smislu. Vjerojatnije je da kombinacija većih resursa, pažljivijeg treniranja i zatvorenih optimizacija daje prednost u testovima koji traže konzistentniju scenu. To je konkurentski signal, ne čarobni trenutak prosvjetljenja.
Najzanimljiviji dio nalazi se ondje gdje svi padaju: logičko zaključivanje. Ako video prikazuje uzrok, posljedicu, redoslijed radnji ili implicitno pravilo scene, modeli se i dalje muče znatno više nego u ostalim kategorijama. Drugim riječima, benchmark razdvaja ono što izgleda kao razumijevanje od onoga što se samo dobro renderira.
Za developere i poslovne korisnike poruka je prilično praktična. AI video može biti odličan alat za prototip, reklamu, storyboard ili brzu vizualizaciju, ali ga ne treba tretirati kao pouzdan simulator stvarnosti. Dok modeli ne počnu dosljedno poštovati logiku scene, tvrdnje o “world modelima” ostat će marketing s vrlo lijepim svjetlom.

