YuanLab obećava jeftiniji golemi AI, ali račun tek treba vidjeti
A warehouse of model experts where only a narrow lit path activates for one query.📷 AI-generated / Tech&Space
- ★Yuan 3.0 Ultra se predstavlja kao 1T MoE model
- ★Učinkovitost ovisi o pruning strategiji i rasporedu eksperata
- ★Tvrdnje treba čitati kroz otvorene benchmarke i dostupnost modela
MarkTechPost predstavlja Yuan 3.0 Ultra kao veliki multimodalni MoE model. Najvažniji dio nije sama brojka od trilijun parametara, nego pitanje koliko se računa aktivira za pojedini upit.
Mixture-of-Experts arhitektura bira podskup eksperata umjesto da pali cijeli model. Googleov Switch Transformer rad ostaje dobar kontekst jer pokazuje zašto se skala i računalni trošak mogu razdvojiti, ali samo ako routing radi dobro.
Trilijun parametara zvuči golemo, ali ključ je koliko ih model stvarno aktivira i kako se preslaguju eksperti.
A pruning table where dormant expert blocks are rearranged into a lean inference route.📷 AI-generated / Tech&Space
YuanLabov naglasak na pruning i expert rearrangement zato je smislen: model nije uvjerljiv zato što je ogroman, nego zato što tvrdi da je golemost organizirana. Hugging Faceov pregled MoE-a pomaže objasniti zašto loš raspored eksperata može poništiti teorijsku uštedu.
Granica opreza je benchmark. Bez široko provjerljivih testova, dostupnog modela i jasnih troškova inferencije, učinkovitost ostaje tvrdnja iz najave. MoE modeli često impresioniraju na papiru, ali praksa ih mjeri latencijom, memorijom i stabilnošću routinga.
Ako Yuan 3.0 Ultra isporuči obećano, bit će zanimljiv kao kineski odgovor na utrku skupih frontier modela. Ako ne, ostat će još jedan podsjetnik da parametri zvuče glasno, ali računi za inferenciju govore tiše i preciznije.

