SLATE uči modele gdje su pogriješili u pretraživanju
A branching search path shows reward markers placed near the decision point instead of only at the final answer.📷 AI-generated / Tech&Space
- ★SLATE koristi zajednički prefiks i više mogućih sljedećih koraka kako bi preciznije ocijenio jednu odluku.
- ★Rad prijavljuje 7,0% relativni dobitak na 7B modelu i 30,7% na 3B modelu kroz sedam QA benchmarkova.
- ★Metoda je obećavajuća za manje modele, ali produkcijsko pretraživanje ostaje teži test od kontroliranih QA zadataka.
GDJE RL GUBI SIGNAL
Model koji koristi pretraživanje često radi više stvari prije nego što da odgovor: razmisli, napiše upit, pročita rezultate, promijeni smjer i tek onda zaključi. Klasični reinforcement learning takav niz često ocijeni tek na kraju. Ako je odgovor točan, cijela putanja dobije pozitivan signal. Ako je pogrešan, cijela putanja dobije kaznu. Problem je očit: model ne zna je li pogriješio u upitu, u čitanju dokumenta ili u završnom zaključku.
SLATE, arXiv rad Chrisa Samarinsa, Haw-Shiuana Changa i Hameda Zamanija, napada baš taj problem dodjele zasluge. Autori ga opisuju kao Step-Level Advantage estimation for Truncated Exploration. Jednostavnije rečeno: umjesto da se uspoređuju cijele putanje od početka do kraja, SLATE zadrži isti prefiks i generira više mogućih nastavaka za sljedeći korak. Time se izolira odluka koja se upravo dogodila.
To je važna razlika. Ako dva pokušaja imaju isti prethodni kontekst, a razlikuju se samo u idućem upitu ili idućem zaključku, lakše je reći koji je izbor bio bolji. U punim rolloutima previše se toga mijenja odjednom, pa ocjena postaje šumna. Autori tvrde da truncirano uzorkovanje može smanjiti varijancu procjene prednosti do faktora T kod putanja od T koraka. U prijevodu: trening dobiva manje slučajnog šuma i jasniji signal.
Drugi dio metode su procesne nagrade. SLATE ne ocjenjuje samo završni odgovor, nego razdvaja kvalitetu rezoniranja, kvalitetu pretraživačkog upita i točnost odgovora. U radu se za to koristi LLM sudac s ternarnom skalom. To je bolje od gole binarne nagrade, ali nije magija: LLM sudac unosi vlastite troškove, pristranosti i pogreške. Ipak, kao inženjerski signal, to je znatno konkretnije od ocjene koja stigne tek kad je sve gotovo.
Nova RL metoda ne čeka završni odgovor, nego uspoređuje sljedeći korak iz istog konteksta i time smanjuje šum u učenju.
Two differently sized model blocks receive the same cleaner step-level feedback from a search trajectory.📷 AI-generated / Tech&Space
ŠTO ZNAČE BROJEVI
Rezultati su zanimljivi jer nisu ravnomjerni. Autori prijavljuju 7,0% relativno poboljšanje u odnosu na Search-R1 na 7B modelu, ali 30,7% na 3B modelu, kroz sedam QA benchmarkova. To sugerira da manji modeli više profitiraju od čišćeg signala. Veći model ponekad može kapacitetom progutati lošiji trening. Manji model nema taj luksuz, pa mu preciznija povratna informacija vrijedi više.
Tu treba biti oprezan s naslovima koji zvuče kao prekretnica. Benchmarkovi pitanja i odgovora nisu isto što i produkcijska tražilica. U kontroliranom skupu postoji poznat točan odgovor, a često i jasniji put do relevantnog dokumenta. U stvarnom pretraživanju korisnički upiti su neuredni, dokumenti proturječni, a “točan” odgovor ponekad ovisi o kontekstu koji nije u benchmarku.
SLATE je zato najjači kao metodološki signal. Pokazuje da se poboljšanje ne mora tražiti samo u većem modelu ili duljem treniranju. Ponekad je dovoljno promijeniti pitanje koje trening postavlja: ne “je li cijela putanja uspjela?”, nego “je li ovaj konkretni korak pomogao?”. Za retrieval-augmented reasoning to je zdrava korekcija smjera.
Ako se ova ideja pokaže stabilnom izvan QA zadataka, mogla bi biti korisna i za druge agente koji rade u više koraka: alate za kodiranje, browsere, analitičke agente ili sustave koji moraju birati između nekoliko akcija. Dotad, SLATE treba čitati kao dobro postavljen istraživački rad, ne kao gotov recept za svaku AI tražilicu.