Apple želi da obična fotografija postane 3D objekt, bez studija i oblaka
Apple’s single-shot 3D AI skips the studio lights📷 AI-generated / Tech&Space editorial visual
- ★Model LiTo koristi transformersku arhitekturu unutar latentnog prostora za predviđanje interakcije svjetla s površinama
- ★Rješenje zaobilazi klasične pristupe koji zahtijevaju stotine kalibriranih slika i profesionalna svjetlosna postrojenja
- ★On-device implementacija putem Apple Neural Enginea i Metal frameworka omogućila bi obradu bez slanja podataka u oblak
Appleovi istraživači predstavili su model LiTo koji iz obične 2D fotografije rekonstruira potpuno trodimenzionalni objekt s foto-studijskim kvalitetama — bez višekamernih postava, kontroliranog svjetla ili stotina kalibriranih slika. Rješenje se oslanja na transformersku arhitekturu unutar latentnog prostora, gdje model predviđa kako će se svjetlo ponašati na površinama pod bilo kojim kutom gledanja.
Raniji pristupi trodimenzionalnoj rekonstrukciji uglavnom su se fokusirali na geometriju ili difuzna svojstva površine, što je redovito proizvodilo artefakte — plastične teksture, nestajuće sjene, refleksije koje se raspadaju pri najmanjoj rotaciji. LiTo zadržava kontekst svjetla, sjaja i refleksije kroz cijeli latentni tok, što eliminira taj problem na korijenu. Ključna je razlika u tome što model ne rekonstruira tek oblik, već predviđa interakciju svjetla s materijalom — fizički točno, ne približno.
Tehnički, latentni prostor omogućava značajno ubrzanje: umjesto da obrađuje piksel po piksel, LiTo komprimira vizualne informacije u matematički prostor gdje su odnosi svjetla, boje i strukture već kodirani. Transformerska arhitektura tada izvlači ovisnosti koje klasični konvolucijski modeli propuštaju. Rezultat je brža obrada i manja ovisnost o hardverskim resursima — ključna prednost za bilo kakvu on-device implementaciju.
Model LiTo eliminira potrebu za višekamernim postavima i kontroliranim svjetlom
Consistent reflections in a one-shot world📷 © Tech&Space
Apple već godinama gradi most između latentnih modela i 3D vizualizacije kroz projekte poput naprednih AR rješenja, a LiTo predstavlja najdosljedniji korak u tom smjeru. On-device obrada putem Apple Neural Enginea i Metal frameworka znači da bi podaci mogli ostati na uređaju — bez slanja u oblak, bez latencije, bez privatnosnih kompromisa.
Konkurenti poput NVIDI-e nude slična rješenja za 3D rekonstrukciju, ali njihovi pristupi često zahtijevaju dodatne ulazne podatke — više slika, dubinske mape, poznate parametre kamere — ili proizvode kompromise u kvaliteti svjetla. LiTo smanjuje ulaz na jednu jedinu fotografiju bez gubitka fizikalne točnosti, što bi moglo biti presudno za mobilne uređaje gdje je svaki dodatni senzor trošak u prostoru, energiji i cijeni.
Apple nije najavio konkretnu integraciju, ali smjer je jasan. Vision Pro bi mogao dobiti realističnije AR objekte koji se ne raspadaju pri kretanju korisnika; iOS bi mogao ponuditi razvojarima API-je za fotorealistične efekte bez potrebe za serverskom infrastrukturom. Community već spekulira o mogućnostima — od e-trgovine gdje kupci rotiraju proizvode pod vlastitim svjetlom, do dizajnerskih alata gdje skiciranje postaje trodimenzionalno u sekundi.
Pitanje nije hoće li LiTo stići u proizvode, već kada i u kojem obliku. Apple tradicionalno ne žuri s istraživačkim prototipovima, ali kada latentni modeli ovog kalibra dođu do korisnika, granica između snimljene slike i generiranog 3D objekta postaje tek tehnički detalj.

