TECH&SPACE
LIVE FEEDMC v1.0
EN
// STATUS
ISS420 kmCREW7 aboardNEOs0 tracked todayKp0FLAREB1.0LATESTBaltic Whale and Fehmarn Delays Push Scandlines Toward Faste...ISS420 kmCREW7 aboardNEOs0 tracked todayKp0FLAREB1.0LATESTBaltic Whale and Fehmarn Delays Push Scandlines Toward Faste...
// INITIALIZING GLOBE FEED...
Umjetna inteligencijadb#1451

LLM agenti dobili vanjsku kontrolu – ali radi li to u praksi?

(2w ago)
Global
arxiv.org
LLM agenti dobili vanjsku kontrolu – ali radi li to u praksi?

LLM agenti dobili vanjsku kontrolu – ali radi li to u praksi?📷 © Tech&Space

  • 73,6% uspjeha umjesto 34,6% na SWE-bench Verified
  • Više od 40% manje tokena bez gubitka performansi
  • Sigurnosne prepreke kao deterministički filteri, ne naknadni patch

Autonomni LLM agenti redovito propadaju na dugoročnim zadacima jer im je politika zakopana u težinama modela, a sigurnosne mjere dolaze post factum kao flasteri na rupu. Traversal-as-Policy — metoda koju predlaže tim iza OpenHands-a — ne nudi još jedan fine-tuning, već eksternalizira politiku u izvršivo Gated Behavior Tree (GBT) distilirano iz logova pješčanika. Ključna razlika?

Umjesto da se oslanja na neograničenu generaciju, agent sada prati drvo odlučivanja — ali samo za zadatke u pokrivenom prostoru. Rješenje zvuči kao tehnički trik, ali brojevi na SWE-bench Verified govore drugačije: uspjeh skočio sa 34,6% na 73,6%, dok su kršenja sigurnosnih pravila pala s 2,8% na 0,2%.

Čak i troškovi su se smanjili — od 208k na 126k tokena po zadatku, što je 39% uštede bez žrtvovanja performansi. Ali ovdje započinje pravo pitanje: radi li ovo samo na sintetičkim benchmarkovima, ili je riječ o skalabilnom pristupu?

Ispod haube, svaki čvor u GBT-u sadrži akcijski makro uvjetovan stanjem, izvučen iz uspješnih putanja i provjeren na konflikte. Neuspješni pokušaji ne idu u smeće — njihovi tragovi postaju determinističke prepreke koje blokiraju nesigurne kontekste prije izvršenja.

Sustav se ažurira po principu iskustveno utemeljene monotonosti: što god je jednom odbijeno kao nesigurno, više se ne može vratiti u razmatranje.

Distilirane behavior drevljike kao alternativa nestabilnim LLM politikama

Distilirane behavior drevljike kao alternativa nestabilnim LLM politikama📷 © Tech&Space

Distilirane behavior drevljike kao alternativa nestabilnim LLM politikama

Problem je što većina LLM agenata danas radi kao crna kutija s naknadnom kontrolom. Traversal-as-Policy pokušava okrenuti tu logiku: umjesto da se sigurnost dodaje poslije, ona postaje dio same politike — barem za zadatke koje drvo već pokriva.

Ali tu leži i najveća slabost: što se događa kada agent naiđe na nepoznati scenarij? Autori tvrde da se drvo može proširivati, ali pitanje je koliko će to koštati u performansama i održavanju. GitHub diskusije već naziru da bi skaliranje na stvarne aplikacije moglo zahtijevati ručno fino podesavanje čvorova — što onda od miša čini slona.

Industrijski kontekst je jasniji: tvrtke koje grade agente za kritične aplikacije (npr. Adept ili Cognition) sada imaju konkretnu alternativu ad-hoc sigurnosnim filtrima. Ali i ovdje postoji jaz: benchmarkovi kao SWE-bench mjeri uspjeh po zadrškama u kodu, a ne po, recimo, financijskim transakcijama ili medicinskim odlukama.

Pravi test će biti kada neka tvrtka pokuša implementirati GBT u produkciji — tamo gdje latencija i troškovi održavanja često pretvaraju elegantna rješenja u operativne noćne more. Zanimljivije od samog papira je što community već primjećuje da ovaj pristup liči na staro vino u novoj boci: behavior drevljike se koriste desetljećima u robotici i igrama, a ovdje su jednostavno prerađene za LLM kontekst.

Pitanje je da li će to biti dovoljno za industriju koja traži brze, a ne nužno pametne rješenja. Očekivati ćemo kako će se ova tema dalje razvijati u skorijoj budućnosti. U međuvremenu, važno je pratiti razvoj i primjene ove tehnologije.

LLMBehavioral DistillationStability Control

//Comments