ARTICLE LINK> OPENING ARTICLE STREAM> WARMING IMAGE CACHE> LOCKING READER ROUTE> TRANSFER

// INITIALIZING GLOBE FEED...

Umjetna inteligencijaPREPRAVLJENOdb#4789

Gemma 4 napada AI čekanje koje korisnici najviše osjećaju

25. svibnja 2026.(4d ago)

Global

Brzi interpreter članka

InfoQ izvještava da se Gemma 4 može upariti s multi-token prediction draft modelima koji koriste spekulativno dekodiranje za paralelno predlaganje tokena. Navedeni rezultat je do približno 3x brže generiranje bez gubitka kvalitete, što je važno za trošak i odziv AI servisa.

Gemma 4 provjerava paralelno predložene tokene u ubrzanom inference toku.📷 AI-generated image / TECH&SPACE

AutorNexus ValeAI urednik“Može citirati halucinaciju i onda debugirati fusnotu.”

★Gemma 4 koristi MTP draft modele za paralelno predlaganje više tokena.
★Spekulativno dekodiranje omogućuje glavnom modelu provjeru prijedloga u jednom prolazu.
★InfoQ navodi ubrzanje do približno 3x bez gubitka kvalitete izlaza.

Najzanimljiviji dio vijesti o Gemmi 4 nije novo natjecanje u veličini modela, nego inženjerski napad na najskuplji dio iskustva: čekanje na tokene. Prema izvještaju InfoQ-a, Gemma 4 može se upariti s multi-token prediction, odnosno MTP draft modelima, koji uz spekulativno dekodiranje predlažu više budućih tokena paralelno. Glavni model zatim ne mora svaki token stvarati potpuno serijski, nego može provjeriti niz prijedloga u jednom prolazu.

To zvuči kao detalj iz runtime sloja, ali posljedica je vrlo konkretna. Ako se prijedlozi draft modela dovoljno često poklope s onim što bi glavni model ionako odabrao, sustav dobiva brži izlaz bez promjene korisničkog odgovora. InfoQ navodi ubrzanje do približno 3x bez gubitka kvalitete. U praksi, takva razlika može odlučiti hoće li AI asistent djelovati trenutno ili tromo, i hoće li isti hardver poslužiti više korisničkih zahtjeva.

Važno je da MTP ovdje nije trik koji zamjenjuje veliki model manjim. Draft model služi kao brzi predlagač, dok Gemma 4 ostaje autoritativni verifikator. Taj odnos je razlog zašto je spekulativno dekodiranje privlačno za produkcijski inference: cilj nije dobiti drukčiji odgovor, nego isti tip odgovora isporučiti s manje sekvencijalnog čekanja. Googleova šira Gemma dokumentacija već pozicionira obitelj modela kao otvoreniji alat za developere, a ovakav runtime dodatak pomiče fokus s treninga na isporuku.

Multi-token prediction i spekulativno dekodiranje omogućuju provjeru više predloženih tokena u jednom prolazu, uz navedeno ubrzanje do približno 3x bez gubitka kvalitete.

MTP draft model predlaže nastavak, a glavni model odlučuje što prolazi.📷 AI-generated image / TECH&SPACE

Tehnički gledano, problem je u tome što je generiranje jezika prirodno sekvencijalno. Model obično predviđa sljedeći token, zatim sljedeći, pa sljedeći, pri čemu svaki korak ovisi o prethodnom. MTP draft pristup pokušava skratiti tu petlju: umjesto da se čeka jedan po jedan token, pomoćni mehanizam predloži mali paket nastavka, a glavni model u jednom prolazu odluči koliko tog paketa može prihvatiti.

Za servise koji rade na velikoj skali, to je relevantnije od još jedne demo snimke. Latencija utječe na UX, ali i na ekonomiku inferencea: manje prolaza kroz model znači manje zauzetog akceleratorskog vremena po odgovoru, ako se ubrzanje potvrdi u stvarnim opterećenjima. Zato je ovaj pomak zanimljiv za chat sustave, agentske tijekove rada, alate za kodiranje i sve aplikacije gdje korisnik osjeća svaku pauzu između tokena.

Treba ipak čitati tvrdnju precizno. Izraz “do približno 3x” nije univerzalna garancija za svaki prompt, duljinu odgovora ili hardversku konfiguraciju. Dobitak ovisi o tome koliko su draft prijedlozi točni, koliko je skupa verifikacija i koliko aplikacija može iskoristiti brži tok izlaza. No sama arhitektura je zdrava: umjesto da se kvaliteta žrtvuje radi brzine, brzina se pokušava izvući iz paralelnijeg dekodiranja.

Ako Gemma 4 ovakav MTP put učini pouzdanim za developere, razgovor o otvorenim modelima postaje manje apstraktan. Nije dovoljno imati model koji dobro odgovara na benchmarku; treba ga i posluživati brzo, stabilno i razumno jeftino. Upravo tu Gemma ekosustav za developere dobiva novu dimenziju: optimizacija inferencea postaje dio proizvoda, a ne fusnota nakon objave modela.

TECH&SPACE editorial infographic — Serijsko generiranje naspram MTP spekulativnog dekodiranja.📷 AI-generated image / TECH&SPACE

Google AI Benchmarking Multi-token Prediction Speculative Decoding

// Sljedeće iz najnovijih i vezanih signala

George Hotz Warns AI Coding Agents Could Become a Costly Software Mistake

Prethodni članak

George Hotz vidi pravi račun AI kodiranja u bugovima koje tim ne vidi

Psyche Used Mars to Test Its Eyes for an Asteroid

Sljedeći članak

NASA-in Psyche pretvorio je Mars u probu za asteroid koji tek dolazi

// sviđanja čitatelja

//Comments

Uredi u foto-review →