ARTICLE LINK> OPENING ARTICLE STREAM> WARMING IMAGE CACHE> LOCKING READER ROUTE> TRANSFER

// INITIALIZING GLOBE FEED...

Umjetna inteligencijaPREPRAVLJENOdb#3012

Grok manje izmišlja, ali AI tržište još kupuje pobjednike benchmarka

12. ožujka 2026.(2mo ago)

San Francisco Bay Area, USA

Brzi interpreter članka

xAI's Grok 4.20 trades benchmark dominance for record-low hallucination rates and cut-rate pricing, a deliberate inversion of standard AI product strategy. Whether buyers will value accuracy over leaderboard prestige remains the open bet.

Wikimedia Commons: OpenAI GPT-5.4📷 The Decoder / commons.wikimedia.org

AutorNexus ValeAI urednik“Ima mišljenje o svakom benchmarku i tablicu za ostalo.”

★Grok 4.20 postiže rekordnih 78% stopu bez halucinacija, najvišu u industriji, uz samo 0,3% odbijanja neprovjerenih tvrdnji.
★Model zaostaje za Googleovim Gemini i OpenAI-jevim GPT-5.4 za 12-15 postotnih bodova na MMLU-Pro i GPQA benchmarkovima.
★API je oko 50% jeftiniji od konkurencije, s kontekstom od dva milijuna tokena i nižom latencijom.

xAI je pustio Grok 4.20 u promet s profilom koji zvuči kao tehnički paradoks: najniža stopa halucinacija ikad izmjerena u industriji, ali i značajan zaostatak na standardnim benchmarkovima. Model postiže rekordnih 78 posto u kategoriji "bez halucinacija", uz marginalnih 0,3 posto odbijanja neprovjerenih tvrdnji. Istovremeno, na MMLU-Pro i GPQA testovima zaostaje za Googleovim Gemini i OpenAI-jevim GPT-5.4 za 12 do 15 postotnih bodova — razlika koja bi u normalnim okolnostima zvučala kao diskvalifikacija.

No ovdje se događa nešto neobično. Elon Muskova strategija s xAI-em očito ne prati formulu koju su utabale konkurentne firme. Umjesto da se bori za vrh ljestvice, xAI gradi alat za one koji su spremni zamijeniti "pametne" odgovore sigurnim. Kontekst od dva milijuna tokena i API pozivi oko 50 posto jeftiniji od konkurencije čine Grok privlačnim za specifične slučajeve upotrebe — posebno tamo gdje pogreška ne znači samo neugodnost, nego i sudski spor ili pogrešnu dijagnozu.

Dizajn koji kaže "ne znam"

Razlika između "ne halucinira" i "najbolji u benchmarku" otkriva duboku tenziju u razvoju velikih jezičnih modela. The Decoder navodi da su niži rezultati na sintetičkim testovima vjerojatno posljedica konzervativnijeg dizajna — model jednostavno odbija spekulirati kada nije siguran. To je etički poželjno, ali komercijalno riskantno. Većina kupaca i dalje bira modele po leaderboard pozicijama, ne po statistici pogrešaka.

xAI bira sigurnost pred dominaciju, ali tržište možda ne želi tu zamjenu

Wikimedia Commons: Google Gemini📷 © Google

Za developere, Grok 4.20 predstavlja zanimljiv eksperiment: je li spremnost platiti sporost i nižu "inteligenciju" za pouzdanost racionalna trgovina? U kontekstu gdje halucinacije koštaju milijarde u pravnim, medicinskim i financijskim aplikacijama, odgovor možda nije tako jednostavan kao što se čini na prvi pogled.

Problem je strukturalan. Tržište LLM-ova trenutno funkcionira kao tržište statusnih simbola: kupci biraju ono što impresionira na demonstracijama, ne ono što štedi novac u produkciji. Grok 4.20 riskira da postane tehnički uspjeh s ograničenim tržišnim utjecajem — točan alat u svijetu koji preferira brze, impresivne odgovore. Gartnerova istraživanja upozoravaju da će do 2026. godine više od 30 posto generativnih AI projekata biti obustavljeno upravo zbog problema s pouzdanošću — što bi teorijski trebalo igrati u korist Grokovog pristupa.

No teorija i praksu dijeli ponor. Dok DeepMind i OpenAI investiraju u modele koji balansiraju između kreativnosti i točnosti, xAI bira radikalniju podjelu. Pitanje je hoće li to biti dovoljno za ozbiljniju tržišnu poziciju, ili će Grok 4.20 ostati specijalizirani alat za niše koje cijene sigurnost iznad svega — i koje imaju strpljenja za sporije, konzervativnije sustave.

xAI Gemini Google OpenAI Tesla DeepMind

// Sljedeće iz najnovijih i vezanih signala

DART’s kinetic nudge proves planetary defense isn’t science fiction

Prethodni članak

NASA-in DART udar promijenio putanju asteroida: zašto je ovo presedan

MALUS: When AI Becomes a License Laundering Machine

Sljedeći članak

Šala o AI kodiranju pogađa ozbiljan strah otvorenog koda

// sviđanja čitatelja

//Comments

Uredi u foto-review →