Je li AI previše poslušan da bi bio pametan?
📷 © Tech&Space
- ★75,4% odbijanja zahtjeva za zaobilaženje pravila
- ★Sintetički skup od 14.650 testnih slučajeva
- ★Slijepo odbijanje kao moralni propust jezika
Istraživači s arXiv-a objavili su studiju arXiv:2604.06233v1 koja razotkriva alarmantnu crtu suvremenih jezičnih modela: slijepo odbijanje. Umjesto da procijene je li pravilo koje korisnik želi zaobići nepravedno, apsurdno ili jednostavno besmisleno, modeli rutinski odbacuju zahtjev u 75,4% slučajeva.
To nije samo tehničko ograničenje — to je moralni propust. Studija je konstruirala sintetički skup od 14.650 scenarija, kombinirajući pet kategorija opravdanog kršenja pravila (od ilegitimnog autoriteta do opravdanih iznimaka) s 19 različitih tipova vlasti.
Rezultat? Modeli ne razlikuju diktatorsku naredbu od humanog pravila.
Sigurnosni protokoli, dizajnirani da spriječe zlouporabu, pretvorili su se u stražare koji ne razmišljaju.
📷 © Tech&Space
Kada sigurnost postane izgovor za nedostatak prosudbe
Ono što zabrinjava nije samo brojka, već implikacija: trenutačni pristupi sigurnosti u AI-u pretjerano generaliziraju. Umjesto da uče moralnu prosudbu, modeli uče da je svako kršenje pravila zabranjeno — čak i kada je pravilo sam problem.
Istraživači su koristili GPT-5.4 kao 'slijepog suca' za evaluaciju odgovora, što dodatno komplicira priču. Ako i sam evaluator ima istu sklonost slijepom odbijanju, kako pouzdano mjeriti moralnu razinu modela?
Ovdje se otvara kružno pitanje: možemo li vjerovati rezultatima ako su i alat za mjerenje i mjereni subjekt podložni istim greškama? Tržišne implikacije su jasne.
Tvrtke koje razvijaju AI sustave s fleksibilnijim moralnim okvirom — poput onih koji razlikuju nepravedna pravila od legitimnih — mogle bi steći prednost.
Budućnost AI-a ovisi o našoj sposobnosti da razvijemo sustave koji su u stanju donositi moralne odluke. To će zahtijevati suradnju između istraživača, tvrtki i regulatora. Zajedno možemo stvoriti AI sustave koji će biti sigurni, moralni i korisni za društvo. Time će se omogućiti da AI postane opravdano važan dio naših života.