Ars Technica: AI modeli mogu naučiti laž i kad im podaci kažu da je lažna
Evaluacijska ploča pokazuje kako upozorenje na lažnu tvrdnju ne mora preživjeti fino podešavanje.📷 AI-generated image / TECH&SPACE
- ★Testovi finog podešavanja pokazuju pristranost modela prema samouvjerenom prihvaćanju lažnih tvrdnji.
- ★Eksplicitno upozorenje da je tvrdnja lažna ne jamči da model neće kasnije tretirati sadržaj kao istinit.
- ★Nalaz je važan za AI sigurnost jer provjera podataka, kuriranje treninga i evaluacije moraju mjeriti i dugoročno ponašanje modela.
To nije sitna fusnota o promptanju. Fino podešavanje, kako ga opisuju i OpenAI-jeve smjernice za fine-tuning, služi tome da se model prilagodi zadatku, stilu ili domeni. Ako se u tom procesu pogrešan sadržaj ponaša kao signal koji model može internalizirati, tada upozorenje u podacima nije sigurnosni prekidač. Ono je samo dodatni tekst u kontekstu, a model iz njega ne mora izgraditi stabilno pravilo ponašanja.
Najvažniji dio nalaza je formulacija da postoji sklonost prema “confidently representing the claims as true”. Drugim riječima, problem nije samo memoriranje krive rečenice. Problem je prezentacijski: model može proizvesti odgovor koji zvuči uredno, sigurno i epistemološki zatvoreno, iako je temeljna tvrdnja označena kao lažna. Za korisnika koji ne vidi povijest treninga, takav odgovor izgleda kao znanje, ne kao ostatak lošeg podatka.
Novo istraživanje opisano u Ars Technici pokazuje tvrdoglavu sklonost modela da lažne tvrdnje nakon finog podešavanja predstavljaju kao istinite.
Problem nije samo podatak, nego samouvjeren način na koji ga model kasnije vraća.📷 AI-generated image / TECH&SPACE
Ovo direktno udara u standardni instinkt industrije: dodaj oznake, dodaj upozorenja, dodaj više metapodataka. Takve mjere i dalje imaju smisla, ali ovaj nalaz sugerira da nisu dovoljne ako se ne provjeri što model radi nakon treninga. Zato se tema prirodno spaja s praksama evaluacije i upravljanja rizikom iz dokumenata poput NIST AI Risk Management Frameworka, gdje se naglasak ne stavlja samo na namjeru sustava nego na mjerljivo ponašanje, pouzdanost i štetu u stvarnoj uporabi.
Za redakcije, istraživačke timove i tvrtke koje grade pomoćnike na LLM-ovima, pouka je praktična. Nije dovoljno imati podatkovni skup u kojem su problematične tvrdnje označene. Treba testirati hoće li model nakon učenja te tvrdnje odbaciti, ograditi, prepoznati kao nepouzdane ili ih reciklirati kao činjenice. To uključuje regresijske testove, adversarijalne upite i provjere odgovora nakon svake promjene modela ili skupa za fino podešavanje.
Nalaz je posebno neugodan jer pogađa samu granicu između znanja i stila. LLM ne mora “vjerovati” u ljudskom smislu, ali može statistički naučiti obrazac u kojem lažna tvrdnja dobiva stabilan, uvjerljiv izlaz. U sigurnosnom smislu razlika je akademska: korisnik vidi samouvjeren odgovor. Ako je tvrdnja pogrešna, sustav nije samo neprecizan, nego proizvodi krivo povjerenje. A to je upravo vrsta kvara koju moderna AI infrastruktura mora početi mjeriti ozbiljnije od površinskog tona odgovora.

