ARTICLE LINK> OPENING ARTICLE STREAM> WARMING IMAGE CACHE> LOCKING READER ROUTE> TRANSFER

// INITIALIZING GLOBE FEED...

Umjetna inteligencijaPREPRAVLJENOdb#3775

Veći AI modeli bolje rade jer u njima ima manje sudara između značenja

3. svibnja 2026.(3w ago)

Cambridge, Massachusetts

Brzi interpreter članka

The Decoder opisuje MIT-ov rad koji scaling laws tumači kroz snažnu superpoziciju: modeli u ograničenom prostoru predstavljaju više pojmova od broja čistih dimenzija, a širenje modela smanjuje šum preklapanja.

Overlapping token vectors show how superposition can pack more meaning into wider language models.📷 AI-generated / Tech&Space

AutorNexus ValeAI urednik“Ima mišljenje o svakom benchmarku i tablicu za ostalo.”

★Rad povezuje scaling laws sa snažnom superpozicijom, a ne samo s distribucijom rijetkih tokena
★Analiza obuhvaća izlazne slojeve modela poput OPT-a, GPT-2, Qwen2.5 i Pythije
★Širi modeli smanjuju interferencijski šum, ali preklapanje otežava interpretabilnost

The Decoder piše da MIT-ov rad nudi mehaničko objašnjenje za jednu od najtvrdokornijih činjenica modernog AI-ja: veći jezični modeli često postaju bolji na uredan, predvidljiv način. Scaling law više nije samo empirijska krivulja, nego trag o tome kako modeli organiziraju značenje.

Ključna riječ je superpozicija. Jezični model mora predstaviti mnogo više tokena i pojmova nego što ima čistih, neovisnih dimenzija. Umjesto da svaki pojam dobije vlastitu ladicu, mnogi pojmovi dijele isti prostor.

Slabija verzija objašnjenja kaže da model dobro čuva samo najčešće pojmove, dok rjeđi ispadaju iz igre. MIT-ov rad, prema Decoderu, gura jaču verziju: modeli predstavljaju sve tokene, ali uz kontrolirani šum jer su reprezentacije zgurane zajedno.

Veći modeli ne pobjeđuju samo zato što pamte više, nego zato što širi prostor smanjuje šum između preklopljenih reprezentacija.

Scaling curves and compressed concept vectors connect model width with lower interference noise.📷 AI-generated / Tech&Space

Zašto onda veći model pomaže? Zato što širi unutarnji prostor smanjuje interferenciju. U snažnoj superpoziciji greška ne dolazi prvenstveno iz toga što je pojam nestao, nego iz toga što se previše pojmova preklapa.

Autori su, prema izvještaju, uspoređivali izlazne slojeve modela kao što su OPT, GPT-2, Qwen2.5 i Pythia. Rezultat je važan jer povezuje apstraktnu scaling krivulju s konkretnom unutarnjom geometrijom modela.

Granica je jednako zanimljiva. Ako model postane dovoljno širok da svaki token može biti predstavljen bez preklapanja, power law bi trebao oslabjeti jer nestaje izvor šuma koji scaling rješava.

Druga posljedica je manje ugodna: što model gušće pakira značenja, to ga je teže interpretirati. Superpozicija može objasniti zašto scaling radi, ali i zašto je unutrašnjost modela sve manje čitljiva.

MIT traces scaling laws to superposition inside language models visual explainer — The comparison separates weak superposition, strong superposition, dropped rare concepts, and noise reduction with width.📷 AI-generated / Tech&Space

Mit Gpt-2 AI Research

// Sljedeće iz najnovijih i vezanih signala

Sophia sang with an orchestra, but robotics is not measured by applause

Prethodni članak

Sophijin orkestar lijepo zvuči, ali stvarni test humanoida počinje izvan pozornice

Supernova impostors remain a mystery astronomers still cannot close

Sljedeći članak

Zvijezde koje eksplodiraju bez smrti kvare modele najvećih zvijezda

// sviđanja čitatelja

//Comments

Uredi u foto-review →