Meta tag
reinforcement learning
5 članaka
SLATE uči modele gdje su pogriješili u pretraživanju
SLATE smanjuje najnezgodniji problem RL treninga za pretraživanje: model više ne mora pogađati koji je korak zaslužan za dobar ili loš odgovor.
27 Apr 2026
AlphaGo: deset godina kasnije i promjena pravila
Prije deset godina, DeepMindov AlphaGo pobjedom nad Lee Sedolom pokazao je da umjetna inteligencija može prevladati najzahtjevniju strategijsku igru.
21 Apr 2026
Humanoidni tenis: demo koji još ne igra pravi meč
LATENT pokazuje da humanoidni roboti mogu učiti teniske pokrete iz nepotpunih demonstracija, ali teren je i dalje tvrđi test od videa.
15 Apr 2026
NVIDIA-ov ProRL: Revolucija ili optimizirani pipeline?
NVIDIA je predstavio ProRL AGENT, infrastrukturu koja obećava skalabilno treniranje višefaznih LLM agenata koristeći koncept 'Rollout-as-a-Service'.
28 Mar 2026
RLHF-ov blind spot: može li P-GRPO popraviti preference echo chamber?
Personalizacija u LLM-ovima i dalje je često prosjek s ljepšom etiketom.
12 Mar 2026




