Grok manje izmišlja, ali AI tržište još kupuje pobjednike benchmarka
Wikimedia Commons: OpenAI GPT-5.4📷 The Decoder / commons.wikimedia.org
- ★Grok 4.20 postiže rekordnih 78% stopu bez halucinacija, najvišu u industriji, uz samo 0,3% odbijanja neprovjerenih tvrdnji.
- ★Model zaostaje za Googleovim Gemini i OpenAI-jevim GPT-5.4 za 12-15 postotnih bodova na MMLU-Pro i GPQA benchmarkovima.
- ★API je oko 50% jeftiniji od konkurencije, s kontekstom od dva milijuna tokena i nižom latencijom.
xAI je pustio Grok 4.20 u promet s profilom koji zvuči kao tehnički paradoks: najniža stopa halucinacija ikad izmjerena u industriji, ali i značajan zaostatak na standardnim benchmarkovima. Model postiže rekordnih 78 posto u kategoriji "bez halucinacija", uz marginalnih 0,3 posto odbijanja neprovjerenih tvrdnji. Istovremeno, na MMLU-Pro i GPQA testovima zaostaje za Googleovim Gemini i OpenAI-jevim GPT-5.4 za 12 do 15 postotnih bodova — razlika koja bi u normalnim okolnostima zvučala kao diskvalifikacija.
No ovdje se događa nešto neobično. Elon Muskova strategija s xAI-em očito ne prati formulu koju su utabale konkurentne firme. Umjesto da se bori za vrh ljestvice, xAI gradi alat za one koji su spremni zamijeniti "pametne" odgovore sigurnim. Kontekst od dva milijuna tokena i API pozivi oko 50 posto jeftiniji od konkurencije čine Grok privlačnim za specifične slučajeve upotrebe — posebno tamo gdje pogreška ne znači samo neugodnost, nego i sudski spor ili pogrešnu dijagnozu.
Dizajn koji kaže "ne znam"
Razlika između "ne halucinira" i "najbolji u benchmarku" otkriva duboku tenziju u razvoju velikih jezičnih modela. The Decoder navodi da su niži rezultati na sintetičkim testovima vjerojatno posljedica konzervativnijeg dizajna — model jednostavno odbija spekulirati kada nije siguran. To je etički poželjno, ali komercijalno riskantno. Većina kupaca i dalje bira modele po leaderboard pozicijama, ne po statistici pogrešaka.
xAI bira sigurnost pred dominaciju, ali tržište možda ne želi tu zamjenu
Wikimedia Commons: Google Gemini📷 © Google
Za developere, Grok 4.20 predstavlja zanimljiv eksperiment: je li spremnost platiti sporost i nižu "inteligenciju" za pouzdanost racionalna trgovina? U kontekstu gdje halucinacije koštaju milijarde u pravnim, medicinskim i financijskim aplikacijama, odgovor možda nije tako jednostavan kao što se čini na prvi pogled.
Problem je strukturalan. Tržište LLM-ova trenutno funkcionira kao tržište statusnih simbola: kupci biraju ono što impresionira na demonstracijama, ne ono što štedi novac u produkciji. Grok 4.20 riskira da postane tehnički uspjeh s ograničenim tržišnim utjecajem — točan alat u svijetu koji preferira brze, impresivne odgovore. Gartnerova istraživanja upozoravaju da će do 2026. godine više od 30 posto generativnih AI projekata biti obustavljeno upravo zbog problema s pouzdanošću — što bi teorijski trebalo igrati u korist Grokovog pristupa.
No teorija i praksu dijeli ponor. Dok DeepMind i OpenAI investiraju u modele koji balansiraju između kreativnosti i točnosti, xAI bira radikalniju podjelu. Pitanje je hoće li to biti dovoljno za ozbiljniju tržišnu poziciju, ili će Grok 4.20 ostati specijalizirani alat za niše koje cijene sigurnost iznad svega — i koje imaju strpljenja za sporije, konzervativnije sustave.

