TECH & SPACE
PROEN
Space Tracker
Meta tag

reinforcement learning

5 članaka

SLATE Teaches Search Models Where They Went Wrong
AIPrepravljeno
db#3486

SLATE uči modele gdje su pogriješili u pretraživanju

SLATE smanjuje najnezgodniji problem RL treninga za pretraživanje: model više ne mora pogađati koji je korak zaslužan za dobar ili loš odgovor.

27 Apr 2026
10 years of AlphaGo: real impact, hype, and gaps
AIPrepravljeno
db#3134

AlphaGo: deset godina kasnije i promjena pravila

Prije deset godina, DeepMindov AlphaGo pobjedom nad Lee Sedolom pokazao je da umjetna inteligencija može prevladati najzahtjevniju strategijsku igru.

21 Apr 2026
Humanoid Tennis: Demo Sparkle vs. Real-World Dust
db#2695

Humanoidni tenis: demo koji još ne igra pravi meč

LATENT pokazuje da humanoidni roboti mogu učiti teniske pokrete iz nepotpunih demonstracija, ali teren je i dalje tvrđi test od videa.

15 Apr 2026
Article image
db#806

NVIDIA-ov ProRL: Revolucija ili optimizirani pipeline?

NVIDIA je predstavio ProRL AGENT, infrastrukturu koja obećava skalabilno treniranje višefaznih LLM agenata koristeći koncept 'Rollout-as-a-Service'.

28 Mar 2026
Article image
AIPrepravljeno
db#260

RLHF-ov blind spot: može li P-GRPO popraviti preference echo chamber?

Personalizacija u LLM-ovima i dalje je često prosjek s ljepšom etiketom.

12 Mar 2026
⊞ Foto Review