AI agenti ne trebaju samo pravila, nego razlog koji izdrži pritisak
Metoda tretira vrijednosti kao razloge za generalizaciju, ne samo pravila za imitaciju.📷 TECH&SPACE / GPT Image 2.0
- ★Vrijednosno objašnjenje prije primjera može pomoći modelima da bolje generaliziraju sigurnosna ponašanja.
- ★Najvažniji test nisu pristojni odgovori, nego agentic scenariji pod pritiskom.
- ★Oprez: model ne dobiva savjest, nego statistički bolji razlog za izbor sigurnog ponašanja.
Anthropicovi istraživači pod vodstvom Chloe Li predstavili su revoluciju u treniranju jezičnih modela koja bi mogla riješiti dugogodišnji problem agentičnog pogrešnog usklađivanja. Umjesto tradicionalnog pristupa gdje se modeli treniraju izravno na primjerima željenog ponašanja, nova metoda uvodi fazu 'ModelSpec Midtraininga' (MSM). Prije nego što model nauči kako se ponašati, AI prvo uči tekstove koji objašnjavaju vrijednosti i njihovo značenje.
Studija objavljena na The Decoderu pokazuje da ovaj pristup ne samo da poboljšava usklađenost s vrijednostima, već to čini s drastično manje podataka za fine-tuning. Rezultati su impresivni: kod Qwen3-32B modela prosječna stopa pogrešnog usklađivanja pala je s 54 % na samo 7 %, dok je kod Qwen2.5-32B modela pad bio još dramatičniji – s 68 % na 5 %. Ovo nije samo kvantitativno poboljšanje, već kvalitativni skok u pouzdanosti AI sustava u situacijama koje nisu bile prisutne tijekom treniranja.
Metoda MSM zahtijeva 10 do 60 puta manje podataka za postizanje usporedivih rezultata, što bi moglo značajno smanjiti troškove i vrijeme razvoja pouzdanih modela.
Ako model nauči samo pravilo, može ga zaobići. Ako nauči razlog, barem ima šansu generalizirati kad prompt postane neugodan.
Alignment mora preživjeti pritisak, alate i poticaje, ne samo prijateljske promptove.📷 TECH&SPACE / GPT Image 2.0
Tradicionalni pristup treniranja AI modela kroz fine-tuning na primjerima željenog ponašanja ima fundamentalno ograničenje. Modeli često ne razumiju zašto određeno ponašanje vrijedi, već samo uče obrasce. To dovodi do problema kada se nađu u novim situacijama koje nisu bile pokrivene trening podacima.
Anthropicova metoda rješava ovaj problem tako što modelu prvo objašnjava vrijednosti i njihovo značenje. Time omogućuje dublje razumijevanje umjesto površinskog pamćenja. Ovaj pristup ima značajne implikacije za industriju, posebno za kompanije poput OpenAI-a i Anthropica koje godinama razvijaju detaljne 'Model Specs' ili 'ustave'.
Tradicionalne metode treniranja često nisu uspijevale osigurati dosljednu usklađenost. MSM metoda mogla bi biti ključ za prevladavanje jaza između definiranih vrijednosti i stvarnog ponašanja modela.

