Gemma 4 napada AI čekanje koje korisnici najviše osjećaju
Gemma 4 provjerava paralelno predložene tokene u ubrzanom inference toku.📷 AI-generated image / TECH&SPACE
- ★Gemma 4 koristi MTP draft modele za paralelno predlaganje više tokena.
- ★Spekulativno dekodiranje omogućuje glavnom modelu provjeru prijedloga u jednom prolazu.
- ★InfoQ navodi ubrzanje do približno 3x bez gubitka kvalitete izlaza.
Najzanimljiviji dio vijesti o Gemmi 4 nije novo natjecanje u veličini modela, nego inženjerski napad na najskuplji dio iskustva: čekanje na tokene. Prema izvještaju InfoQ-a, Gemma 4 može se upariti s multi-token prediction, odnosno MTP draft modelima, koji uz spekulativno dekodiranje predlažu više budućih tokena paralelno. Glavni model zatim ne mora svaki token stvarati potpuno serijski, nego može provjeriti niz prijedloga u jednom prolazu.
To zvuči kao detalj iz runtime sloja, ali posljedica je vrlo konkretna. Ako se prijedlozi draft modela dovoljno često poklope s onim što bi glavni model ionako odabrao, sustav dobiva brži izlaz bez promjene korisničkog odgovora. InfoQ navodi ubrzanje do približno 3x bez gubitka kvalitete. U praksi, takva razlika može odlučiti hoće li AI asistent djelovati trenutno ili tromo, i hoće li isti hardver poslužiti više korisničkih zahtjeva.
Važno je da MTP ovdje nije trik koji zamjenjuje veliki model manjim. Draft model služi kao brzi predlagač, dok Gemma 4 ostaje autoritativni verifikator. Taj odnos je razlog zašto je spekulativno dekodiranje privlačno za produkcijski inference: cilj nije dobiti drukčiji odgovor, nego isti tip odgovora isporučiti s manje sekvencijalnog čekanja. Googleova šira Gemma dokumentacija već pozicionira obitelj modela kao otvoreniji alat za developere, a ovakav runtime dodatak pomiče fokus s treninga na isporuku.
Multi-token prediction i spekulativno dekodiranje omogućuju provjeru više predloženih tokena u jednom prolazu, uz navedeno ubrzanje do približno 3x bez gubitka kvalitete.
MTP draft model predlaže nastavak, a glavni model odlučuje što prolazi.📷 AI-generated image / TECH&SPACE
Tehnički gledano, problem je u tome što je generiranje jezika prirodno sekvencijalno. Model obično predviđa sljedeći token, zatim sljedeći, pa sljedeći, pri čemu svaki korak ovisi o prethodnom. MTP draft pristup pokušava skratiti tu petlju: umjesto da se čeka jedan po jedan token, pomoćni mehanizam predloži mali paket nastavka, a glavni model u jednom prolazu odluči koliko tog paketa može prihvatiti.
Za servise koji rade na velikoj skali, to je relevantnije od još jedne demo snimke. Latencija utječe na UX, ali i na ekonomiku inferencea: manje prolaza kroz model znači manje zauzetog akceleratorskog vremena po odgovoru, ako se ubrzanje potvrdi u stvarnim opterećenjima. Zato je ovaj pomak zanimljiv za chat sustave, agentske tijekove rada, alate za kodiranje i sve aplikacije gdje korisnik osjeća svaku pauzu između tokena.
Treba ipak čitati tvrdnju precizno. Izraz “do približno 3x” nije univerzalna garancija za svaki prompt, duljinu odgovora ili hardversku konfiguraciju. Dobitak ovisi o tome koliko su draft prijedlozi točni, koliko je skupa verifikacija i koliko aplikacija može iskoristiti brži tok izlaza. No sama arhitektura je zdrava: umjesto da se kvaliteta žrtvuje radi brzine, brzina se pokušava izvući iz paralelnijeg dekodiranja.
Ako Gemma 4 ovakav MTP put učini pouzdanim za developere, razgovor o otvorenim modelima postaje manje apstraktan. Nije dovoljno imati model koji dobro odgovara na benchmarku; treba ga i posluživati brzo, stabilno i razumno jeftino. Upravo tu Gemma ekosustav za developere dobiva novu dimenziju: optimizacija inferencea postaje dio proizvoda, a ne fusnota nakon objave modela.

