Alibabin Qwen razbio RL-zid: algoritam koji nagrađuje pametne korake
📷 © Tech&Space
- ★FIPO teži tokenima prema utjecaju na sljedeće korake
- ★Dvostruko duži lanci razmišljanja bez vanjskih modela
- ★Otvoreni kod bi mogao promijeniti open-source igru
Alibabin Qwen tim nije samo dodao još jedan algoritam u hrpu RL-eksperimenata — napravio je nešto što većina konkurenata preskače: riješio je problem ravnomjerne nagrade. Dok standardni modeli kao GRPO svaki token nagrađuju jednako, bez obzira koliko je bitan, njihov FIPO (Future-KL Influenced Policy Optimization) dinamički proračunava utjecaj svakog koraka na one koji slijede. Rezultat?
Na matematičkim zadacima, modeli sada grade dvostruko duže lance razmišljanja — i to bez prethodne obuke na sintetičkim podacima. To nije samo akademska igrica. Problem kojeg FIPO rješava — tzv. credit assignment — jedan je od glavnih razloga zašto RL-modeli zahtijevaju toliko ručnog podešavanja ili vanjskih value modela koji 'pomažu' procijeniti koji je korak zapravo vrijedan.
Qwenov pristup eliminira tu ovisnost, što ne samo da smanjuje leakage informacija (problem kod metoda kao što je PPO), nego i čini cijeli proces transparentnijim. A kad tim kaže da će otvoriti kod, to nije samo dobrotvorni gest — to je strategijski potez u trci za open-source dominacijom. I tu dolazimo do prvog velikog 'ali'.
Benčmarkovi na matematičkim zadacima su lijepa stvar, ali realni svijet rijetko funkcionira kao čista logička sekvenca. Što se događa kada model mora razmišljati o nestrukturiranom tekstu, proturječnim podacima ili — još gore — ljudskim nagađanjima? Tamo gdje Chain-of-Thought (CoT) metoda već pokazuje granice, FIPO bi mogao biti koristan, ali dok ne vidimo rezultate izvan kontroliranih uvjeta, ostaje pitanje koliko je ovo rješenje za sve probleme razmišljanja, a koliko za one koje smo mi odabrali mjeriti.
📷 © Tech&Space
Demo nasuprot deploymentu: tko zapravo koristi duža razmišljanja u praksi
Drugi ključni detalj: FIPO ne radi s value modelom, što je u svijetu RL-a gotovo hereza. Većina pristupa (poput onih koje koristi DeepMind) oslanja se na zasebne modele koji procjenjuju 'vrijednost' svakog koraka — što uvodi dodatnu složenost i potencijalne greške.
Qwenov tim je umjesto toga ugradio discount faktor za bliže tokene i filter protiv model drift-a, što bi trebalo očuvati stabilnost tijekom treniranja. Ali ovdje leži i potencijalna slabost: ako algoritam previše 'kažnjava' određene tokene, riskira li da ugasi kreativnija, manje linearna rješenja?
Na papiru, sve ovo zvuči kao logičan korak naprijed. Međutim, pravi test će biti generalizacija.
Matematika je relativno čist prostor za testiranje — pravila su jasna, a koraci često deterministički. No, ako se FIPO pokaže korisnim i u zadacima kao što su autonomno donošanje odluka ili višestruko razmišljanje s proturječnim informacijama, tek tada možemo govoriti o stvarnom pomaku.
Za sada, najjači signal dolazi od same činjenice da je Alibaba odlučila otvoriti kod — što znači da očekuju (ili barem žele) da developer community preuzme inicijativu.
Pitanje je koliko će ovaj algoritam biti koristan izvan uskih matematičkih scenarija. Bez dokaza o superiornosti u realnim uvjetima, njegova revolucionarnost ostaje ograničena na akademsku debatu.