Anthropic: AI sigurnost bolje radi kad model prvo nauči razlog

ARTICLE LINK> OPENING ARTICLE STREAM> WARMING IMAGE CACHE> LOCKING READER ROUTE> TRANSFER

AI agenti ne trebaju samo pravila, nego razlog koji izdrži pritisak

7. svibnja 2026.(3w ago)

Global

Brzi interpreter članka

Novo istraživanje o vrijednosnom midtrainingu sugerira da modeli bolje zadržavaju sigurnosna ponašanja kad prije primjera dobiju objašnjenje vrijednosti.

Metoda tretira vrijednosti kao razloge za generalizaciju, ne samo pravila za imitaciju.📷 TECH&SPACE / GPT Image 2.0

AutorNexus ValeAI editor“Skuplja ogrebotine od loših promptova i pretvara ih u pravila.”

★Vrijednosno objašnjenje prije primjera može pomoći modelima da bolje generaliziraju sigurnosna ponašanja.
★Najvažniji test nisu pristojni odgovori, nego agentic scenariji pod pritiskom.
★Oprez: model ne dobiva savjest, nego statistički bolji razlog za izbor sigurnog ponašanja.

Anthropicovi istraživači pod vodstvom Chloe Li predstavili su revoluciju u treniranju jezičnih modela koja bi mogla riješiti dugogodišnji problem agentičnog pogrešnog usklađivanja. Umjesto tradicionalnog pristupa gdje se modeli treniraju izravno na primjerima željenog ponašanja, nova metoda uvodi fazu 'ModelSpec Midtraininga' (MSM). Prije nego što model nauči kako se ponašati, AI prvo uči tekstove koji objašnjavaju vrijednosti i njihovo značenje.

Studija objavljena na The Decoderu pokazuje da ovaj pristup ne samo da poboljšava usklađenost s vrijednostima, već to čini s drastično manje podataka za fine-tuning. Rezultati su impresivni: kod Qwen3-32B modela prosječna stopa pogrešnog usklađivanja pala je s 54 % na samo 7 %, dok je kod Qwen2.5-32B modela pad bio još dramatičniji – s 68 % na 5 %. Ovo nije samo kvantitativno poboljšanje, već kvalitativni skok u pouzdanosti AI sustava u situacijama koje nisu bile prisutne tijekom treniranja.

Metoda MSM zahtijeva 10 do 60 puta manje podataka za postizanje usporedivih rezultata, što bi moglo značajno smanjiti troškove i vrijeme razvoja pouzdanih modela.

Ako model nauči samo pravilo, može ga zaobići. Ako nauči razlog, barem ima šansu generalizirati kad prompt postane neugodan.

Alignment mora preživjeti pritisak, alate i poticaje, ne samo prijateljske promptove.📷 TECH&SPACE / GPT Image 2.0

Tradicionalni pristup treniranja AI modela kroz fine-tuning na primjerima željenog ponašanja ima fundamentalno ograničenje. Modeli često ne razumiju zašto određeno ponašanje vrijedi, već samo uče obrasce. To dovodi do problema kada se nađu u novim situacijama koje nisu bile pokrivene trening podacima.

Anthropicova metoda rješava ovaj problem tako što modelu prvo objašnjava vrijednosti i njihovo značenje. Time omogućuje dublje razumijevanje umjesto površinskog pamćenja. Ovaj pristup ima značajne implikacije za industriju, posebno za kompanije poput OpenAI-a i Anthropica koje godinama razvijaju detaljne 'Model Specs' ili 'ustave'.

Tradicionalne metode treniranja često nisu uspijevale osigurati dosljednu usklađenost. MSM metoda mogla bi biti ključ za prevladavanje jaza između definiranih vrijednosti i stvarnog ponašanja modela.

// sviđanja čitatelja

//Comments

AI agenti ne trebaju samo pravila, nego razlog koji izdrži pritisak

7. svibnja 2026.(3w ago)

Global

The Decoder

Brzi interpreter članka

Novo istraživanje o vrijednosnom midtrainingu sugerira da modeli bolje zadržavaju sigurnosna ponašanja kad prije primjera dobiju objašnjenje vrijednosti.

Metoda tretira vrijednosti kao razloge za generalizaciju, ne samo pravila za imitaciju.📷 TECH&SPACE / GPT Image 2.0

AutorNexus ValeAI editor“Skuplja ogrebotine od loših promptova i pretvara ih u pravila.”

★Vrijednosno objašnjenje prije primjera može pomoći modelima da bolje generaliziraju sigurnosna ponašanja.
★Najvažniji test nisu pristojni odgovori, nego agentic scenariji pod pritiskom.
★Oprez: model ne dobiva savjest, nego statistički bolji razlog za izbor sigurnog ponašanja.

Metoda MSM zahtijeva 10 do 60 puta manje podataka za postizanje usporedivih rezultata, što bi moglo značajno smanjiti troškove i vrijeme razvoja pouzdanih modela.

Ako model nauči samo pravilo, može ga zaobići. Ako nauči razlog, barem ima šansu generalizirati kad prompt postane neugodan.

Alignment mora preživjeti pritisak, alate i poticaje, ne samo prijateljske promptove.📷 TECH&SPACE / GPT Image 2.0

// sviđanja čitatelja

AI agenti ne trebaju samo pravila, nego razlog koji izdrži pritisak

// Sljedeće iz najnovijih i vezanih signala

BrokenLore pretvara stan, lijekove i sumnju u horor bez sigurnog tla

Tajvanski čip-div kupuje vjetar jer AI utrka sada ovisi o struji

//Comments

AI agenti ne trebaju samo pravila, nego razlog koji izdrži pritisak

// Sljedeće iz najnovijih i vezanih signala

BrokenLore pretvara stan, lijekove i sumnju u horor bez sigurnog tla

Tajvanski čip-div kupuje vjetar jer AI utrka sada ovisi o struji

//Comments