Dynin-Omni: Prvi omnimodalni model koji ne obećava čuda
📷 Photo by Google DeepMind on Pexels
- ★Maskirana difuzija umjesto autogresivnih modela
- ★Benchmarkovi od 87.6 na GSM8K do 61.4 na VideoMME
- ★Tko stječe prednost u trci za unificirane modele
Dynin-Omni nije samo još jedan »unificirani model« koji objašnjava svjetske probleme u press release-u. To je prvi pokušaj da se maskirana difuzija — tehnika koja do sada nije bila primarna u omnimodalnom modeliranju — primijeni na zajednički tokenizirani prostor za tekst, sliku, govor i video. Razlika od prethodnih pristupa, poput Googleovog PaLI ili Metaovog ImageBind? Model ne serijalizira modalitete u nizu ni ne oslanja se na vanjske dekodere, nego iterativno poboljšava izlaz u bidirekcionalnom kontekstu.
Razlog zašto ovo nije samo akademska vježba leži u brojevima. Na GSM8K testu matematičkog razumijevanja postigli su 87.6 — bolje od većine otvorenih modela, ali još uvijek iza najjačih zatvorenih rješenja. Zanimljiviji je rezultat od 1733.6 na MME-P (multimodalna evaluacija percepcije), gdje nadmašuju većinu konkurenata, uključujući i one s višekratno većim parametrima. Međutim, kao i uvijek, benchmarkovi nisu realni svijet: što znači kada model u laboratoriju radi s 95% precisionom, a u produkciji padne na 60% zbog šuma u podacima?
Tu dolazi do ključnog pitanja: tko ovdje zapravo dobiva prednost? Za razliku od Metae ili Googlea, koji mogu ugraditi takve modele u postojeće ekosustave poput Instagrama, Searcha ili Ads-a, autori Dynin-Omnija — tim s Pekingskog sveučilišta i Microsoft Research Asia — morat će pronaći partnera za skaliranje. A to je problem: bez infrastrukture za fine-tuning na specifične use case-ove, čak i najbolji model ostaje demo na Hugging Face-u.
📷 © Tech&Space
Demo nasuprot deploymentu: Zašto ovaj model može biti više od još jednog arXiv papira
Multi-stage training strategija koju koriste — model-merging bazirana ekspanzija modaliteta plus omnimodalno poravnanje — zvuči kao obećavajuće rješenje za problem »curse of multimodality«. Što više modaliteta dodate, to se model tradicionalno gori u svima. No ovdje nastaje realnost jaz: dok akademski papiri slave »prvu iteraciju«, inženjeri u produkciji pitaju koliko će koštati fine-tunati ovaj model za medicinske snimke ili autonomne agente. GenEval rezultat od 0.87 (generativna evaluacija) je impresivan, ali što to znači kada 90% korisnika ne može razlikovati kvalitetnu generiranu sliku od loše?
Zanimljivije od samih brojeva je ko reagira — i kako. Na GitHub-u i r/ML-u već cirkuliraju neoficijelni portovi za lokalno pokretanje, ali s upozorenjem: »radi samo na A100 GPU-ovima s 80GB RAM-a«. Drugim riječima, ovo nije rješenje za startupove, barem ne sada. A upravo startapi bi najviše trebali unificirane modele, jer ne mogu priuštiti odvojene timove za NLP, CV i audio.
Pravi signal ovdje nije u samom modelu, nego u promjeni pristupa. Ako maskirana difuzija zaista može skalirati na više modaliteta bez eksponencijalnog rasta parametara, to bi moglo preokrenuti ekonomiku razvoja foundation modela. No dok god nema jasnog puta do deploymenta — a kamoli do monetizacije — Dynin-Omni ostaje zanimljiv eksperiment, ne pretnja za uspostavljenu konkurenciju.
Model je dokaz da inovacije u arhitekturi mogu nadmašiti veličinu parametara. Međutim, tržišna realnost nameće pitanja o održivosti takvih rješenja izvan akademskog okruženja. Bez jasne monetizacijske strategije, Dynin-Omni riskira postati još jedan zaboravljeni rad na arXivu.