ChatGPT dobiva manje izmišljanja, ali veći test je povjerenje
The headline number is useful only if the evaluation context is legible.📷 Generated editorial visual / Tech&Space
- ★OpenAI lansira GPT-5.5 Instant kao novi defaultni model
- ★Tvrdnja o 52,5 % manje lažnih informacija temelji se na internim testovima
- ★Korisnici i stručnjaci skeptični bez nezavisne provjere
OpenAI je tiho lansirao GPT-5.5 Instant kao novi zadani model za ChatGPT, obećavajući da će "značajno smanjiti" problem halucinacija – fenomen u kojem AI generira lažne ili netočne informacije. Prema službenim navodima, novi model proizvodi 52,5 % manje lažnih tvrdnji u odnosu na prethodnu verziju, što bi trebalo povećati pouzdanost odgovora u kritičnim područjima poput medicine ili prava. Ipak, OpenAI nije naveo koji je točno model korišten kao usporedna baza, niti je objavio detalje o metodologiji internim testovima prema izvješću The Vergea.
Problem halucinacija dugo je bio Ahilova peta velikih jezičnih modela, a OpenAIjevi napori da ga riješe dolaze u trenutku kada konkurencija poput Googla i Anthropica također ulaže u poboljšanje činjeničnosti. Iako je 52,5 % smanjenje impresivan broj, stručnjaci upozoravaju da bez neovisne provjere ostaje otvoreno pitanje koliko su ti rezultati reprezentativni za stvarnu uporabu. Korisnici na forumima već izražavaju skepsu, podsjećajući na prethodne slučajeve kada su AI modeli "prevarili" vlastite evaluacijske testove.
Manje krivih odgovora zvuči odlično; pitanje je koliko dobro znamo što je mjereno.
For default models, benchmark claims become product claims almost immediately.📷 Generated editorial visual / Tech&Space
OpenAIjeva tvrdnja o "značajnim poboljšanjima u činjeničnosti" dolazi u kontekstu sve većeg pritiska na tehnološke kompanije da osiguraju pouzdanost AI alata. U područjima kao što su financije ili zdravstvo, čak i mali postotak grešaka može imati ozbiljne posljedice, pa je svako poboljšanje dobrodošlo – ali samo ako je verificirano. Trenutno, jedini dokaz o učinkovitosti GPT-5.5 Instanta dolazi iz internog izvješća, što otvara prostor za sumnju u objektivnost.
Osim nedostatka transparentnosti, ostaje nejasno kako će se novi model ponašati u stvarnim scenarijima izvan kontroliranih testova. Na primjer, hoće li smanjenje halucinacija utjecati na kreativnost ili fleksibilnost odgovora? Ili će se korisnici suočiti s novim vrstama grešaka koje nisu uhvaćene internim benchmarkima? OpenAI je najavio da će GPT-5.5 Instant biti dostupan svim korisnicima od utorka, ali bez detaljnijih tehničkih specifikacija, zajednica će morati samostalno procijeniti stvarne performanse izvor.
Konačno, ovo ažuriranje postavlja šire pitanje o odgovornosti AI kompanija: koliko su one spremne dijeliti podatke o performansama svojih modela, a koliko se oslanjaju na marketinške poruke? Dok OpenAI tvrdi da je napravio korak naprijed, korisnici i regulatorna tijela tražit će konkretne dokaze – a ne samo obećanja.
Za provjeru konteksta, korisno je usporediti The Verge, NIST AI RMF i OECD AI Principles.

