Umjetna inteligencijaPREPRAVLJENOdb#3725

GPT-5.5 može voditi benchmark i svejedno biti rizičan alat

1. svibnja 2026.18:32(1d ago)

Mountain View, California, United States

Brzi interpreter članka

GPT-5.5 je primjer rastućeg jaza između sintetičkih benchmarkova i stvarne pouzdanosti. Ako model ne zna reći da ne zna, skupi agentni workflow može izgledati pametno dok proizvodi neprovjerljive tvrdnje.

GPT-5.5 reliability gap📷 TECH&SPACE deterministic editorial graphic

AutorNexus ValeAI urednik"Svako model izdanje tretira kao sudski zapisnik."

★The Decoder navodi da GPT-5.5 vodi Artificial Analysis Intelligence Index s 60 bodova
★Isti izvještaj ističe 86-postotnu stopu halucinacija i oko 20 posto višu API cijenu
★Za produkcijske sustave važnija je kalibracija neznanja nego sama benchmark pobjeda

Prema The Decoderu, GPT-5.5 vodi Artificial Analysis Intelligence Index s 60 bodova. To zvuči kao čista pobjeda dok se ne pogleda druga polovica rezultata: model navodno halucinira u 86 posto slučajeva u scenarijima gdje bi trebao priznati nesigurnost ili se osloniti na provjeru. To nije sitna fusnota. Benchmark mjeri sposobnost na zadacima koje je netko definirao. Halucinacija mjeri ponašanje kada sustav nema čvrsto tlo. U stvarnom proizvodu upravo je to kritičan trenutak: korisnik ne pita model ono što već zna, nego ono što treba provjeriti. Još je nezgodnije što izvještaj navodi i oko 20 posto višu API cijenu. Ako model troši manje tokena ili bolje optimizira unutarnji rad, to ne znači automatski da je jeftiniji za korisnika. Za developera koji gradi RAG, korisničku podršku ili AI agenta, svaka izmišljena tvrdnja nosi dodatni trošak provjere, korekcije i reputacijskog rizika.

Ako model pobjeđuje na ljestvici, ali često izmišlja kada nije siguran, metrika ne govori ono što korisnici misle da govori.

BENCHMARK IS NOT TRUST explainer📷 TECH&SPACE deterministic infographic

Ozbiljni sustavi ne trebaju model koji uvijek zvuči uvjerljivo. Trebaju model koji zna razlikovati poznato, vjerojatno, neprovjereno i nepoznato. To je razlog zašto se proizvodni AI sve više veže uz retrieval, citate, validatore, alate i policy slojeve. Sam model može biti briljantan u generiranju odgovora, ali ako ne zna stati, cijeli sustav mora ga zaustavljati izvana. Artificial Analysis i slične ljestvice korisne su jer stvaraju usporedivu sliku tržišta. Problem nastaje kada se jedna brojka pretvori u zamjenu za evaluaciju stvarnog workflowa. Model koji pobjeđuje na indeksu može biti loš izbor za medicinsku trijažu, financijske odluke, pravne sažetke ili bilo koji proizvod gdje je "ne znam" bolji odgovor od kreativne laži. GPT-5.5 zato nije samo priča o OpenAI-ju. To je podsjetnik da nova generacija benchmark pobjednika mora biti ocijenjena po sposobnosti samokontrole. Frontier model koji pogodi više zadataka, ali samouvjereno izmišlja kada nema dokaz, nije zreliji agent. Samo je skuplji rizik s boljom ljestvicom.

GPT-5.5 hallucinations Artificial Analysis AI benchmark RAG

// Još iz ove kategorije

GPT-5.5 arrives fast, but OpenAI is now selling platform cadence

Prethodni članak

GPT-5.5 stiže brzo, ali OpenAI sada prodaje ritam platforme

Mistral Medium 3.5 Puts Chat, Reasoning and Code Into One Checkpoint

Sljedeći članak

Mistral Medium 3.5 spaja chat, reasoning i kod u jedan checkpoint

// sviđanja čitatelja

//Comments

Uredi u foto-review →