Umjetna inteligencijadb#1174

LinearARD: Pametna distilacija koja spašava RoPE od zaborava

2. travnja 2026.04:44(3w ago)

Global

LinearARD: Pametna distilacija koja spašava RoPE od zaborava📷 © Tech&Space

★98,3% oporavka performansi na kratkim tekstovima
★Linear-memory kernel zaobišao kvadratni memorijski zid
★Samo 4,25M tokena za treniranje LLaME-7B

Istraživači s arXiva objavili su metodu LinearARD koja vraća RoPE-skaliranim modelima gotovo potpunu sposobnost obrade kratkih konteksta – čak 98,3 % performansi originalnog LLaME-7B modela. Tehnika koristi samo 4,25 milijuna tokena za distilaciju, što je desetine puta manje od standardnog kontinuiranog pretreniranja (CPT). Ključni pomak nije u tome što LinearARD radi, već kako to radi: umjesto da nasumce prilagođava pozicijske embedinge, metoda se fokusira na konzistentnost strukture pažnje između „učitelja“ s izvornim RoPE-om i „učenika“ s proširenim kontekstom.

Alinacija redaka u Q/Q, K/K i V/V matricama nije nova ideja, ali rijetko se provodi s ovom preciznošću – i još rjeđe s ovim rezultatima. Autori se nisu zadovoljili sintetske benchmarkove: njihova metoda pokazuje da se izbjegava „katastrofalno zaboravljanje“, fenomen koji muči većinu skaliranja konteksta. To nije samo akademski uspjeh – ovo je direktan odgovor na praktični problem s kojim se suočavaju svi proizvođači koji žele proširiti kontekstni prozor bez gubitka performansi na kratkim tekstovima.

Revolucija u skaliranju konteksta: Kako LinearARD mijenja pravila igre s minimalnim resursima📷 © Tech&Space

Revolucija u skaliranju konteksta: Kako LinearARD mijenja pravila igre s minimalnim resursima

Linear-memory kernel koji LinearARD koristi nije samo optimizacija – on razbija kvadratni memorijski zid koji onemogućava obradu dugih sekvenci na standardnom hardveru. Dok većina metoda zahtijeva stotine milijardi tokena za učinkovito skaliranje, ovaj pristup postiže superiorne rezultate s samo 256 milijuna tokena za fine-tuning. GitHub rasprave već pokazuju da su developerima najzanimljiviji baš ovi praktični aspekti: koliko dodatnog koda treba za implementaciju i koliko je metoda osjetljiva na hiperparametre.

Industrijska implikacija je jasna: kompanije koje ovladaju ovom tehnikom dobivaju prednost u obradi dugih dokumenata bez potrebe za skupim pretreniranjem ili žrtvovanjem performansi na kratkim benchmarkovima. Konkretno, ovo znači da će modeli poput LLaME-7B sada moći obraditi 4K tokena s gotovo identičnom točnošću kao i prije skaliranja – ali uz znatno manji memorijski i računski otisak. Ipak, postoji pitanje: koliko je ovaj metod robusan izvan kontroliranih laboratorijskih uvjeta?

LinearARD dokazuje da inovacije ne moraju biti komplicirane da bi bile revolucionarne. Umjesto goleme potrošnje resursa, nude se elegantna rješenja koja stvarno rade.

LinearARD: RoPE attention optimizationTransformer architecture improvementsEfficient attention mechanisms in LLMsMemory-efficient language modelsAttention scaling techniques

//Comments

Uredi u foto-review →