Veći AI modeli bolje rade jer u njima ima manje sudara između značenja
Overlapping token vectors show how superposition can pack more meaning into wider language models.📷 AI-generated / Tech&Space
- ★Rad povezuje scaling laws sa snažnom superpozicijom, a ne samo s distribucijom rijetkih tokena
- ★Analiza obuhvaća izlazne slojeve modela poput OPT-a, GPT-2, Qwen2.5 i Pythije
- ★Širi modeli smanjuju interferencijski šum, ali preklapanje otežava interpretabilnost
The Decoder piše da MIT-ov rad nudi mehaničko objašnjenje za jednu od najtvrdokornijih činjenica modernog AI-ja: veći jezični modeli često postaju bolji na uredan, predvidljiv način. Scaling law više nije samo empirijska krivulja, nego trag o tome kako modeli organiziraju značenje.
Ključna riječ je superpozicija. Jezični model mora predstaviti mnogo više tokena i pojmova nego što ima čistih, neovisnih dimenzija. Umjesto da svaki pojam dobije vlastitu ladicu, mnogi pojmovi dijele isti prostor.
Slabija verzija objašnjenja kaže da model dobro čuva samo najčešće pojmove, dok rjeđi ispadaju iz igre. MIT-ov rad, prema Decoderu, gura jaču verziju: modeli predstavljaju sve tokene, ali uz kontrolirani šum jer su reprezentacije zgurane zajedno.
Veći modeli ne pobjeđuju samo zato što pamte više, nego zato što širi prostor smanjuje šum između preklopljenih reprezentacija.
Scaling curves and compressed concept vectors connect model width with lower interference noise.📷 AI-generated / Tech&Space
Zašto onda veći model pomaže? Zato što širi unutarnji prostor smanjuje interferenciju. U snažnoj superpoziciji greška ne dolazi prvenstveno iz toga što je pojam nestao, nego iz toga što se previše pojmova preklapa.
Autori su, prema izvještaju, uspoređivali izlazne slojeve modela kao što su OPT, GPT-2, Qwen2.5 i Pythia. Rezultat je važan jer povezuje apstraktnu scaling krivulju s konkretnom unutarnjom geometrijom modela.
Granica je jednako zanimljiva. Ako model postane dovoljno širok da svaki token može biti predstavljen bez preklapanja, power law bi trebao oslabjeti jer nestaje izvor šuma koji scaling rješava.
Druga posljedica je manje ugodna: što model gušće pakira značenja, to ga je teže interpretirati. Superpozicija može objasniti zašto scaling radi, ali i zašto je unutrašnjost modela sve manje čitljiva.

