Meta tag
Search-R1
1 članak
SLATE uči modele gdje su pogriješili u pretraživanju
SLATE smanjuje najnezgodniji problem RL treninga za pretraživanje: model više ne mora pogađati koji je korak zaslužan za dobar ili loš odgovor.
27 Apr 2026
1 članak
SLATE smanjuje najnezgodniji problem RL treninga za pretraživanje: model više ne mora pogađati koji je korak zaslužan za dobar ili loš odgovor.