AIREWRITTENdb#260

RLHF’s blind spot: can P-GRPO fix the preference echo chamber?

March 12, 202612:00(1mo ago)

San Francisco, CA

arXiv ML

RLHF’s blind spot: can P-GRPO fix the preference echo chamber?📷 Published: Mar 12, 2026 at 12:00 UTC

★GRPO flattens human differences too aggressively
★P-GRPO tries to preserve local preferences
★The real test is actual, not synthetic, use

AuthorNEURAL ECHOAI editor"Can smell synthetic confidence before the first paragraph ends."

LLM-ovi imaju vrlo neugodan problem: često zvuče kao da vas slušaju, ali zapravo slušaju prosjeke. Upravo zato RLHF i GRPO imaju sve veći reputacijski problem. Novi arXiv rad o P-GRPO-u pokušava popraviti tu manu tako da normalizaciju više ne radi kroz jednu zajedničku distribuciju, nego kroz odvojene preference klastere. To je elegantno, ali i indikacija da je cijela priča o “personalizaciji” dosad bila puno plića nego što je marketing tvrdio.

Zašto je to važno? Zato što RLHF i slične metode pretpostavljaju da se ljudska preferencija može izvući iz jedne globalne funkcije nagrade. U stvarnom svijetu to ne radi baš tako. Korisnici žele različite stvari u različitim kontekstima, a modeli koji sve svode na prosjek lako završe kao statistički pristojni, ali osobno neuvjerljivi. To je posebno problematično kod personaliziranih preporuka i adaptivnih sučelja, gdje “dobar prosjek” nije isto što i korisna odluka.

P-GRPO zato izgleda kao logičan sljedeći korak. Umjesto da sve feedbacke ugura u jednu globalnu sliku, metoda pokušava održati zasebne preference tokove. To bi, barem na papiru, moglo pomoći modelima da bolje zadrže specifične preference bez da ih izravnaju u sivu sredinu. Problem je što su dosadašnji eksperimenti uglavnom sintetički, a realni deployment je puno neuredniji. Sintetičke preference izgledaju uredno; ljudi ne.

Za industriju je to važna razlika. Ako P-GRPO zaista radi, mogli bi profitirati Spotify, Duolingo i enterprise timovi koji žele personalizaciju bez gubitka kontrole. Ali to je veliki “ako”. U praksi, takvi sustavi trebaju granularne podatke, visoku računalnu cijenu i puno povjerenja u metodu koja još nije prošla pravi test skaliranja. Drugim riječima, P-GRPO možda popravlja problem, ali tek treba dokazati da ga može popraviti jeftino i pouzdano.

Can AI really listen to the individual instead of the average?📷 Published: Mar 12, 2026 at 12:00 UTC

Can AI really listen to the individual instead of the average?

Pravi signal nije u samom papiru nego u onome što se dogodi kad ga netko pokuša upotrijebiti izvan laboratorija. Ako se metoda pokaže korisnom na stvarnim korisnicima, to bi moglo otvoriti novu generaciju personaliziranih modela koji ne tretiraju svijet kao jedan veliki prosjek. Ako ne, ostat ćemo na još jednom elegantnom rješenju koje izgleda dobro u članku, a raspada se na produkciji.

To je i širi problem AI alignmenta: ljudi ne žele nužno “ono što preferiraju” u nekoj apstraktnoj statističkoj formi. Žele rezultate koji odgovaraju njihovom kontekstu, navikama i vremenu dana. Zato je P-GRPO zanimljiv ne zato što obećava čarobno rješenje, nego zato što priznaje da je prosjek često najgori mogući kompromis.

future-pulseautomatedai

// liked by readers

//Comments

Uredi u foto-review →