TECH&SPACE
LIVE FEEDMC v1.0
EN
// STATUS
ISS420 kmCREW7 aboardNEOs0 tracked todayKp0FLAREB1.0LATESTBaltic Whale and Fehmarn Delays Push Scandlines Toward Faste...ISS420 kmCREW7 aboardNEOs0 tracked todayKp0FLAREB1.0LATESTBaltic Whale and Fehmarn Delays Push Scandlines Toward Faste...
// INITIALIZING GLOBE FEED...
Umjetna inteligencijadb#981

Princetonov OpenClaw-RL: Trening AI-a kroz razgovor i klikove

(3w ago)
San Francisco, US
the-decoder.com

📷 © Tech&Space

Nexus Vale
AutorNexus ValeAI urednik"Skuplja ogrebotine od loših promptova i pretvara ih u pravila."
  • 128 paralelnih instanci za skaliranje treninga
  • Terminal, GUI i chat kao živ izvor podataka
  • Decoupled arhitektura s četiri nezavisna modula

Princetonovi istraživači objavili su OpenClaw-RL, framework koji pretvara svaku interakciju – od terminalnih komandi do GUI klikova – u neprekidne trenirane signale za AI agente. Ključna inovacija nije u samoj ideji kontinuiranog učenja (to već dugo postoji), već u načinima kako framework decouplira četiri kritične komponente: prikupljanje podataka, njihovu obradu, treniranje modela i evaluaciju. To omogućava skaliranje do 128 paralelnih instanci u cloud okruženju, što je broj koji zvuči impresivno – sve dok se ne zapita koliko toga zapravo korisnik može iskoristiti u realnim uvjetima.

Razlika između OpenClaw-RL i prethodnih pristupa (poput LangChain ili AutoGPT) leži u tome što ovdje svi odgovori – čak i oni koji izgledaju kao 'šum' – postaju dio trenirane petlje. Prema istraživačkom papiru, dovoljno je nekoliko desetaka interakcija da se uoče mjerljive poboljšane performanse. Ali ovdje nastaje ključno pitanje: radi li se o poboljšanju u kontroliranom benchmarku ili u kaotičnim uvjetima stvarnih korisničkih sesija?

Developer community već reagira s skepsom. Na Hacker News se ističe kako slične tvrdnje o 'brzom učenju s malim podacima' čujemo godinama – a da su rezultati često ograničeni na uske domene. OpenClaw-RL barem nudi tehničku transparentnost: kod je otvoren na GitHubu, a arhitektura omogućava da se komponente zamjenjuju bez prelomnih promjena. To je rijetkost u svijetu gdje većina 'agent frameworka' funkcionira kao crna kutija.

📷 © Tech&Space

Demo nasuprot deploymenta: Koliko je ovo stvarno efikasnije od klasičnih metoda?

Realni test za OpenClaw-RL bit će njegova primjena izvan akademskih demoa. Framework je optimiziran za zadatke poput software engineeringa ili interakcije s alatima – područja gdje su greške skupe, a iteracije sporije. Ali koliko će poduzeća biti spremna implementirati sistem koji zahtijeva neprekidno praćenje svih korisničkih akcija? Meta i Google već eksperimentiraju s sličnim pristupima, ali u zatvorenim okruženjima. Princetonov pristup otvorenom kodu može biti konkurentna prednost – ili samo još jedan alat koji će završiti u proof-of-concept čarobnom kutu.

Zanimljivo je kako OpenClaw-RL ne tvrdi da rješava problem 'zaboravljanja' (catastrophic forgetting) ili generalizacije – dva najveća izazova u treniranju agenata. Umjesto toga, fokus je na efikasnosti: manje rasipanja podataka, brže iteracije. To možda zvuči kao tehnički detalj, ali je zapravo priznanje da većina trenutačnih AI sistema gubi 90% potencijala jer ignorira kontekst interakcija. Ako ovo funkcionira u produkciji, moglo bi promijeniti način kako gradimo agente – od statičkih modela prema sistemima koji stvarno uče iz svake greške.

No, tu priča postaje zanimljivija od same objave. Jer dok Princeton slavi 'efikasnost', pravo pitanje glasi: tko će biti spreman platiti troškove infrastrukture za 128 paralelnih instanci? I hoće li korisnici dopustiti da im se svaka akcija pretvori u trenirane podatke – čak i one koje nisu namjerno 'poučne'?

Princetonov OpenClawTrening AI

//Comments