Alibaba ubrzava AI slike, ali utrka se sada vodi oko toga što korisnici vide
Qwen-Image-2.0 Cuts Generation Steps, But Quality Still Has to Prove Itself📷 AI-generated image / TECH&SPACE
- ★Distilirana verzija modela spušta generiranje s 40 koraka na 4, pa je propusnost glavna promjena.
- ★Alibaba navodi da Qwen-Image-2.0 udvostručuje kompresiju i smanjuje količinu rada potrebnu za stvaranje slika.
- ★LMArena rang na devetom mjestu sugerira da brže generiranje samo po sebi ne rješava utrku kvalitete.
Prema izvornom materijalu, Alibaba je ponovno podigla ljestvicu efikasnosti u generiranju slika s Qwen-Image-2.0, modelom koji ne samo da udvostručuje kompresiju, već i drastično skraćuje vrijeme generiranja. Umjesto 40 koraka denoisinga, distilirana verzija modela radi s samo četiri, što je poboljšanje koje bi moglo promijeniti pravila igre za aplikacije u stvarnom vremenu.
Ključna inovacija leži u kombinaciji tvrđe komprimirajućeg VAE-a i reworkiranog transformera koji stabilizira treniranje bez tradicionalnog diskriminatora – tim ga je čak proglasio „uglavnom redundantnim“ na većim skalama. Prema tehničkom izvještaju, model postiže 16-struku prostornu downsampling kompresiju, što je dvostruko više od većine konkurenata.
To ne samo da smanjuje zahtjeve za pohranu i propusnost, već i omogućuje brže iteracije tijekom treniranja. Dodatno, Qwen-Image-2.0 uvodi poseban modul koji automatski proširuje kratke korisničke upite u detaljne promptove, čime se potencijalno smanjuje potreba za preciznim inženjeringom promptova. Iako su rezultati na standardnom ImageNet skupu obećavajući, pravi test bit će kako će se model ponašati u stvarnim scenarijima izvan laboratorijskih uvjeta.
Alibabin model spušta generiranje sa 40 na 4 koraka i diže kompresiju na 16×, no LMArena ga zasad ne stavlja na vrh
A split-frame technical scene showing 16x compression logic versus a blind ranking board, with the model looking fast on the left and only mid-pack on the right.📷 AI-generated image / TECH&SPACE
Trenutno rangiranje na LMAreni – deveto mjesto među modelima za generiranje slika – sugerira da Qwen-Image-2.0 još nije na vrhu, ali njegovi tehnički parametri govore o drugačijoj priči. Dok konkurenti poput Stable Diffusiona i MidJourneyja još uvijek ovise o većem broju koraka i manjem stupnju kompresije, Alibabin pristup fokusira se na optimizaciju procesa, a ne samo na konačni rezultat.
Međutim, ostaje otvoreno pitanje koliko će se ove optimizacije prevesti u stvarnu prednost. Benchmark rezultati često ne odražavaju performanse u produkciji, a korisnici bi mogli preferirati kvalitetu slike nad brzinom generiranja. Iako je tim iza Qwen-Image-2.0 izbacio diskriminator iz VAE-a, još nije jasno kako će se to odraziti na konzistentnost i detalje generiranih slika. Tehnički izvještaj nudi detaljniji uvid u arhitekturu, ali pravi test bit će kako će se model ponašati u rukama stvarnih korisnika.

