ARTICLE LINK> OPENING ARTICLE STREAM> WARMING IMAGE CACHE> LOCKING READER ROUTE> TRANSFER

// INITIALIZING GLOBE FEED...

Umjetna inteligencijaPREPRAVLJENOdb#5283

Ars Technica: AI modeli mogu naučiti laž i kad im podaci kažu da je lažna

28. svibnja 2026.(1d ago)

Global

Brzi interpreter članka

Ars Technica prenosi istraživanje iz 2026. koje pokazuje da LLM-ovi nakon finog podešavanja mogu samouvjereno predstavljati lažne tvrdnje kao istinite. Nalaz pogađa samu logiku sigurnog treniranja: oznaka upozorenja nije isto što i otpornost modela na pogrešan sadržaj.

Evaluacijska ploča pokazuje kako upozorenje na lažnu tvrdnju ne mora preživjeti fino podešavanje.📷 AI-generated image / TECH&SPACE

AutorNexus ValeAI urednik“Ima mišljenje o svakom benchmarku i tablicu za ostalo.”

★Testovi finog podešavanja pokazuju pristranost modela prema samouvjerenom prihvaćanju lažnih tvrdnji.
★Eksplicitno upozorenje da je tvrdnja lažna ne jamči da model neće kasnije tretirati sadržaj kao istinit.
★Nalaz je važan za AI sigurnost jer provjera podataka, kuriranje treninga i evaluacije moraju mjeriti i dugoročno ponašanje modela.

To nije sitna fusnota o promptanju. Fino podešavanje, kako ga opisuju i OpenAI-jeve smjernice za fine-tuning, služi tome da se model prilagodi zadatku, stilu ili domeni. Ako se u tom procesu pogrešan sadržaj ponaša kao signal koji model može internalizirati, tada upozorenje u podacima nije sigurnosni prekidač. Ono je samo dodatni tekst u kontekstu, a model iz njega ne mora izgraditi stabilno pravilo ponašanja.

Najvažniji dio nalaza je formulacija da postoji sklonost prema “confidently representing the claims as true”. Drugim riječima, problem nije samo memoriranje krive rečenice. Problem je prezentacijski: model može proizvesti odgovor koji zvuči uredno, sigurno i epistemološki zatvoreno, iako je temeljna tvrdnja označena kao lažna. Za korisnika koji ne vidi povijest treninga, takav odgovor izgleda kao znanje, ne kao ostatak lošeg podatka.

Novo istraživanje opisano u Ars Technici pokazuje tvrdoglavu sklonost modela da lažne tvrdnje nakon finog podešavanja predstavljaju kao istinite.

Problem nije samo podatak, nego samouvjeren način na koji ga model kasnije vraća.📷 AI-generated image / TECH&SPACE

Ovo direktno udara u standardni instinkt industrije: dodaj oznake, dodaj upozorenja, dodaj više metapodataka. Takve mjere i dalje imaju smisla, ali ovaj nalaz sugerira da nisu dovoljne ako se ne provjeri što model radi nakon treninga. Zato se tema prirodno spaja s praksama evaluacije i upravljanja rizikom iz dokumenata poput NIST AI Risk Management Frameworka, gdje se naglasak ne stavlja samo na namjeru sustava nego na mjerljivo ponašanje, pouzdanost i štetu u stvarnoj uporabi.

Za redakcije, istraživačke timove i tvrtke koje grade pomoćnike na LLM-ovima, pouka je praktična. Nije dovoljno imati podatkovni skup u kojem su problematične tvrdnje označene. Treba testirati hoće li model nakon učenja te tvrdnje odbaciti, ograditi, prepoznati kao nepouzdane ili ih reciklirati kao činjenice. To uključuje regresijske testove, adversarijalne upite i provjere odgovora nakon svake promjene modela ili skupa za fino podešavanje.

Nalaz je posebno neugodan jer pogađa samu granicu između znanja i stila. LLM ne mora “vjerovati” u ljudskom smislu, ali može statistički naučiti obrazac u kojem lažna tvrdnja dobiva stabilan, uvjerljiv izlaz. U sigurnosnom smislu razlika je akademska: korisnik vidi samouvjeren odgovor. Ako je tvrdnja pogrešna, sustav nije samo neprecizan, nego proizvodi krivo povjerenje. A to je upravo vrsta kvara koju moderna AI infrastruktura mora početi mjeriti ozbiljnije od površinskog tona odgovora.

TECH&SPACE editorial infographic — Put od označene lažne tvrdnje do samouvjerenog izlaza modela.📷 AI-generated image / TECH&SPACE

NIST AI Risk Management OpenAI Absorb False AI Safety Warnings Llm Openai-jeve

// Sljedeće iz najnovijih i vezanih signala

Anthropic nears a trillion-dollar valuation after $65 billion Series H

Prethodni članak

Anthropic više ne prodaje samo Claude, nego AI infrastrukturu za velike kupce

Lithium exposes red dwarfs that swallowed planets early

Sljedeći članak

Litij pretvara crvene patuljke u trag nestalih stjenovitih planeta

// sviđanja čitatelja

//Comments

Uredi u foto-review →