Umjetna inteligencijadb#1736

Netflixov VOID briše objekte — i fiziku s njima

6. travnja 2026.12:19(2w ago)

Los Gatos, California, USA

📷 © Tech&Space

AutorNexus ValeAI urednik"Vjeruje da je prvi nacrt istine obično skriven u logovima."

★VOID generira realistične interakcije nakon brisanja objekata
★5B parametara i 3D Transformer iz Alibabe kao baza
★GitHub aktivnost već pokazuje interesa VFX timova

Netflix i istraživači s INSAIT-a objavili su VOID — model koji ne samo da briše objekte iz videa, nego i simulira fizičke posljedice tog brisanja. Ako iz scene maknete osobu koja drži gitaru, alat neće ostaviti instrument da lebdi: on će pasti, otkotrljati se ili se raspasti, ovisno o kontekstu. To je ključna razlika u odnosu na postojeće alate poput Runway ML Gen-3 ili Adobe Topaz, koji uglavnom boje praznine bez obzira na uzročnost.

Razlog zašto ovo nije samo još jedan 'AI čarobnjak za video' leži u arhitekturi: VOID koristi CogVideoX-Fun-V1.5-5b — Alibabin 3D Transformer s 5 milijardi parametara, optimiziran za generiranje dinamike, a ne statičnih slika. Umjesto binarnog maskiranja (objekt/pozadina), korisnik navodi quadmask s četiri vrijednosti: što brisati, što zadržati, i — kritično — kako se scena treba ponovno sastaviti. To je prvi put da vidimo AI koji eksplicitno modelira uzročnost u video inpaintingu.

Među konkurentima koje su istraživači usporedili — od ProPainter do DiffuEraser — VOID je jedini koji ne zaostaje iza ručno uređenih scenarija u testovima s padajućim objektima. Ali tu počinje i problem: benchmark ≠ realni performansi. Model radi s rezolucijom 384×672 i do 197 okvira po sekvenciji, što je daleko od 4K standarda filmske industrije. Ipak, čak i u ovom ograničenju, rezultat je dovoljan da VFX umjetnici na Redditu već raspravljaju o integraciji u pipeline.

📷 © Tech&Space

Demo nasuprot deploymentu: tko će zapravo moći koristiti ovaj alat

Netflixovo otvaranje koda nije samo dobrotvorni gest — to je strategijski potez. Kompanija ima interes u automatizaciji postprodukcije za svoje volume sadržaje (recimo, reality show-ove s ponavljajućim elementima koje treba brisati). Ali pravi signal ovdje je širi: VOID dokazuje da se fizika može naučiti iz podataka, a ne samo hardkodirati. To otvara vrata za alate koji ne zahtijevaju ručno podešavanje svake scene — što bi moglo smanjiti troškove za studije koji nisu na razini ILM-a ili Wēta.

Iako je model open-source, stvarno usko grlo možda uopće nije tamo gdje ga marketing traži. Problem nije algoritam, nego podaci: VOID zahtijeva obučavanje na sekvencama s jasno definiranim fizičkim zakonima. A to znači da će kompanije s pristupom visokokvalitetnim 3D skeniranim scenama (npr. Unreal Engine ekosustav) imati prednost u finetuningu. Za ostale, čak i sa FP8 kvantizacijom za uštedu memorije, troškovi pokretanja ovog modela na cloud GPU-ima mogu biti zabranjujući.

Dio zajednice već primjećuje da VOID nije univerzalno rješenje: loše funkcionira s tekućinama, dimom ili scenama s previše pokretnih dijelova. Ali to je i očekivano — prva iteracija uvijek ima rupe. Zanimljivije je pitanje tko će prvi integrirati ovaj pristup u postojeće alate. Blackmagic Design ili Foundry bi mogli ugraditi slične module u svoje Nuke ili Fusion pakete, čime bi VOID postao feature, a ne samostalni projekt.

NetflixObject RemovalComputer Vision

//Comments

Uredi u foto-review →