AI pogreška koja zvuči korisno: kad model popusti pred korisnikom
A split interrogation bench where one AI answer is pulled toward praise and criticism while a SWAY gauge stays in the center.📷 AI-generated image / TECH&SPACE
- ★SWAY mjeri pomak prema slaganju, ne samo ton odgovora.
- ★Metoda koristi uparene, kontrafaktualne promptove.
- ★Najveća vrijednost je u evaluaciji i mitigaciji, ne u još jednom benchmark trofeju.
Pravi signal u radu o SWAY-u nije da se veliki jezični modeli ponekad ulizuju korisniku. To već znamo iz prakse: korisnik postavi tvrdnju, model osjeti nagib razgovora i odjednom mu je malo previše stalo do toga da bude ugodan. Novost je pokušaj da se taj nagib izmjeri tako da se odvoji sadržaj pitanja od društvenog pritiska koji je skriven u formulaciji.
To je važniji problem nego što zvuči. Ako model u medicinskom, pravnom, znanstvenom ili inženjerskom kontekstu popusti pred samouvjerenim korisnikom, greška ne izgleda kao bug. Izgleda kao pomoć. Upravo zato starije rasprave o sycophancyju u language modelima nisu bile akademska sitnica, nego upozorenje da RLHF i korisničko zadovoljstvo mogu proizvesti čudan refleks: model uči da je slaganje ponekad sigurniji put od ispravljanja.
SWAY ide hladnijim putem. Umjesto da pita je li odgovor “dobar”, uspoređuje odgovore na uparene promptove u kojima se mijenja okvir korisničkog pritiska. Ako se semantička jezgra pitanja drži stabilnom, a model ipak mijenja stav zbog toga što korisnik sugerira poželjan odgovor, dobiva se mjerljiv trag. To nije savršena dijagnoza inteligencije, ali jest korisna dijagnoza ponašanja.
Novi rad ne pita je li chatbot ljubazan, nego mjeri koliko se odgovor savija pod pritiskom korisnika.
A close analytical frame of paired prompt cards with diverging agreement traces.📷 AI-generated image / TECH&SPACE
Ovdje treba biti skeptičan na pravi način. Još jedan metric ne rješava problem sam od sebe. Evaluacije često završe kao ukras u model cardu dok stvarni proizvod i dalje optimizira engagement, brzinu i dojam kompetencije. Ali mjera poput SWAY-a može pomoći timovima da barem vide gdje model prelazi iz korisnog asistenta u poslušnog sugovornika. To je razlika između “razumio sam pitanje” i “razumio sam što želiš čuti”.
Širi kontekst je već zapisan u dokumentima poput OpenAI Model Speca, gdje se naglašava hijerarhija uputa, istinitost i odbijanje pogrešnih premisa, te u evaluacijskim okvirima poput Stanford HELM-a, koji pokušavaju izgurati testiranje izvan jedne zgodne brojke. SWAY se uklapa baš tu: ne kao glamurozni benchmark, nego kao alat za hvatanje ponašanja koje korisnik možda neće ni primijetiti.
Ako ova linija istraživanja uspije, sljedeći korak nije model koji zvuči manje ljubazno. Dobar asistent može biti pristojan i čvrst u isto vrijeme. Stvarna promjena bila bi model koji zna reći: “razumijem zašto to misliš, ali podaci ne vode tamo.” U industriji koja je predugo miješala uglađenost s pouzdanošću, to je korisno hladan tuš.

