Know3D otkriva stražnju stranu 3D objekata – ali je li to dovoljno?

Know3D otkriva stražnju stranu 3D objekata – ali je li to dovoljno?📷 © Tech&Space
- ★Qwen2.5-VL i Trellis.2 iza nove metode za 3D generaciju
- ★Tekstualni promptovi kontroliraju nevidljive dijelove modela
- ★Rješenje za „slijepu točku“ single-image 3D rekonstrukcije
Tim istraživača predvođen Qwen-om i Microsoftovim Trellis.2 alatima objavio je Know3D – metod koji korisnicima omogućava kontrolu „skrivenih“ strana 3D objekata putem tekstualnih prompta. To nije samo još jedan AI trik za generiranje slika, nego pokušaj rješavanja jednog od najupornijih problema u 3D rekonstrukciji: što se događa s onim što kamera ne snima?
Riječ je o klasičnom „blind spotu“ single-image 3D generacije, gdje algoritmi obično ili ignoriraju stražnju stranu objekta ili je nasumično dopunjavaju. Know3D umjesto toga koristi Qwen2.5-VL za interpretaciju tekstualnih uputa (npr. „stražnja strana stolice ima policu za knjige“) i generira geometrijski dosljedne rezultate.
Zanimljivo, rješenje ne zahtijeva dodatne 3D podatke za treniranje – oslanja se na postojeće znanje velikih jezičnih modela. Ali ovdje počinje i prvo veliko pitanje: koliko je ovo zapravo novo?
Većina postojećih alata (poput Stable Diffusion-a ili Shap-E) već omogućava neku kontrolu nad 3D objektima, ali obično zahtijeva više ulaznih podataka ili ručno fine-tuninganje. Know3D tvrdi da radi s jednom slikom i tekstualnim opisom – što bi, ako se potvrdi u praksi, moglo biti korisno za aplikacije od CAD-a do virtualne trgovine.

Demo protiv deploymena: tko zapravo riješava problem?📷 © Tech&Space
Demo protiv deploymena: tko zapravo riješava problem?
Problem je što demo nije produkt. Trenutni rezultati prikazani u istraživačkom papiru (još uvijek u preprint fazi) izgledaju impresivno – ali su ograničeni na jednostavne objekte poput stolica, ormara i automobila.
Kompleksniji oblici (npr. ljudska figura ili organski oblik) još uvijek predstavljaju izazov, a pitanje je koliko će metoda skalirati na realne scenarije. Na primjer, generiranje 3D modela za igru ili film zahtijeva ne samo geometrijsku točnost, nego i fizičku plausibilnost – a tu Know3D još nije testiran.
Druga stvar: tko ovdje zapravo dobiva prednost? Microsoftov Trellis.2 već je integriran u neke Azure usluge, pa bi Know3D mogao biti koristan za njihove korisnike u industriji.
Ali za open-source zajednicu, koja se već godinama bori s ograničenjima 3D podataka, ovo je još jedan alat koji ovisi o zatvorenim modelima (Qwen2.5-VL nije potpuno otvoren). Razvojni tim naglašava da će kod biti dostupan, ali bez jasnog rokova – što je klasičan obrazac „obćećanja otvorenosti“ koji često završava s polu-otvorenim rješenjima.
Zanimljivije od same tehnologije možda je i reakcija zajednice: dio istraživača na Twitteru već primjećuje da Know3D ne riješava problem skaliranja na velike scene, dok drugi ističu da je pravi napredak u kombinaciji s postojećim alatima poput NeRF-a.
Možda nije revolucija, ali Know3D predstavlja korakan korak u razvoju 3D tehnologije. Njegova sposobnost generiranja geometrijski dosljednih rezultata bez potrebe za dodatnim 3D podacima je zanimljiva. Međutim, još uvijek postoje pitanja o skaliranju i primjeni u realnim scenarijima.