Google pokušava izvući dulji AI kontekst iz istih čipova
Google's TurboQuant Squeezes LLM KV Cache to 3 Bits, H100 Speeds Hit 8×📷 AI-generated / Tech&Space editorial visual
- ★TurboQuant postiže osamostruko ubrzanje izračuna attention logita na Nvidia H100 GPU-ima u usporedbi s nekomprimiranim 32-bitnim ključevima, prema rezultatima na benchmarkovima LongBench i Needle In A Haystack.
- ★Dvostupanjska arhitektura eliminira tradicionalni memorijski overhead kvantizacije reorganizacijom podataka, umjesto pukog smanjenja veličine cachea.
- ★Optimizacija omogućuje do šest puta manju potrošnju memorije za cache, što otvara prostor za dulje sekvence ili veće batchove na identičnom hardveru.
Google Research predstavlja TurboQuant, algoritam koji komprimira ključno-vrijednosne (KV) cacheove velikih jezičnih modela na rekordnih 3 bita bez gubitka točnosti. Rezultati na Nvidijinim H100 GPU-ima pokazuju osamostruko ubrzanje izračuna attention logita u usporedbi s nekomprimiranim 32-bitnim ključevima — broj koji zvuči marketinški, ali dolazi iz standardiziranih benchmarkova LongBench i Needle In A Haystack.
Klasična kvantizacija obično znači kompromis: manja preciznost za manju memoriju. TurboQuant taj kompromis ruši dvostupanjskom arhitekturom koja ne samo da smanjuje veličinu cachea, već reorganizira sam tok računanja kako bi eliminirala redundantne operacije koje druge metode ostavljaju netaknute. Rezultat je do šest puta manja potrošnja memorije za cache — prostor koji se može iskoristiti za dulje kontekstne prozore ili veće batchove na identičnom hardveru.
Za produkcijska okruženja ključna je još jedna stavka: bez retraininga. Postojeći modeli se ne moraju prilagođavati, što eliminira najskuplji i najsporiji korak u implementaciji bilo koje optimizacije.
Dvostupanjska kvantizacija koja ne samo smanjuje memoriju, već i reorganizira računanje kako bi eliminirala redundantne troškove
Article image📷 © Tech&Space
Međutim, nije sve riješeno. Najveće pitanje koje ostaje otvoreno jest prenosivost: koliko će se TurboQuant moći prilagoditi GPU arhitekturama izvan Nvidijinog ekosustava? Rani signali sugeriraju širu primjenu, ali detalji o implementaciji na AMD-ovom ili Googleovom vlastitom TPU hardveru još nisu jasni.
Predstavljanje na ICLR-u 2026. sugerira da Google ozbiljno shvaća ovaj rad — riječ je o recenziranoj konferenciji, ne o blog postu ili press releaseu. To istovremeno znači da će zajednica imati priliku detaljno ispitati tvrdnje o "nultom gubitku točnosti" u neovisnim reprodukcijama.
Za developere koji već sada guraju granice inferencea na rubu memorijskih ograničenja, smanjenje KV cachea s 16 ili 32 bita na 3 otvara konkretne mogućnosti: obrada dužih dokumenata u jednom prolazu, veći paralelizam kroz batching, ili jednostavno pokretanje većih modela na jeftinijem hardveru. Pitanje je hoće li Google otvoriti implementaciju ili zadržati prednost unutar vlastitog clouda — obrazac koji smo već vidjeli kod ranijih optimizacija inferencije.

