Search-R1

1 članak

AIPrepravljeno

db#3486

SLATE smanjuje najnezgodniji problem RL treninga za pretraživanje: model više ne mora pogađati koji je korak zaslužan za dobar ili loš odgovor.

27 Apr 2026