Grok 4.20: najtočniji model koji nitko neće koristiti
📷 © Tech&Space
- ★78% stopa bez halucinacija
- ★2 milijuna tokena kontekst
- ★Daleko iza Gemini i GPT-5.4
xAI je pustio Grok 4.20 u promet s ambicioznim, ali neobičnim profilom: najniža stopa halucinacija ikad izmjerena, ali i značajni zaostatak u standardnim benchmarkovima. Model postiže 78% stopu bez halucinacija, što je novi rekord u industriji, dok istovremeno zaostaje za Googleovim Gemini i OpenAI-jevim GPT-5.4 po ključnim performansnim metrikama.
Kontekst od dva milijuna tokena i agresivna cijena API poziva čine Grok privlačnim za specifične slučajeve upotrebe — posebno tamo gdje je pouzdanost važnija od kreativne fleksibilnosti. Elon Muskova strategija s xAI-em očito ne prati istu formulu kao konkurencija: umjesto da se bori za vrh ljestvice, firma gradi alat za one koji su spremni zamijeniti "pametne" odgovore sigurnim.
Problem je što većina komercijalnih korisnika i dalje bira modele po leaderboard pozicijama, ne po statistici pogrešaka. Grok 4.20 stoga riskira da postane tehnički uspjeh s ograničenim tržišnim utjecajem — točan alat u svijetu koji preferira brze, impresivne demonstracije.
📷 © Tech&Space
Točnost bez brzine: nova niša u trci modela
Razlika između "ne halucinira" i "najbolji u benchmarku" otkriva duboku tenziju u razvoju velikih jezičnih modela. The Decoder navodi da su niži rezultati na sintetičkim testovima vjerojatno posljedica konzervativnijeg dizajna — model jednostavno odbija spekulirati kada nije siguran.
To je etički poželjno, ali komercijalno riskantno. Za developere, Grok 4.20 predstavlja zanimljiv eksperiment: je li spremnost platiti sporost i nižu "inteligenciju" za pouzdanost racionalna trgovina?
U kontekstu gdje halucinacije koštaju milijarde u pravnim, medicinskim i financijskim aplikacijama, odgovor možda nije očit kao što se čini. Muskova ekipa evidentno kalkulira da će se tržište fragmentirati — da će jedan dio korisnika prepoznati vrijednost "dosadnog" modela koji ne izmišlja činjenice.
Grok 4.20 će vjerojatno naći svoje mjesto na tržištu, ali će to biti ograničeno na specifične slučajeve upotrebe. To će biti zanimljivo gledati kako će se ova situacija razvijati u budućnosti. Grok 4.20 je tehnički uspjeh, ali će li to biti dovoljno za uspjeh na tržištu?