Jedan agent pobjeđuje ekipu kad konačno uračunaš trošak
Jedan agent pobijeđuje ekipu — ako brojite tokene📷 © Tech&Space
- ★Mnogo agentne arhitekture izgledaju bolje tek kad smiju trošiti više
- ★Token normalizacija ruši dobar dio benchmark teatra
- ★Pravi problem je upravljanje kontekstom, ne broj persona
AI industrija posljednjih godinu dana obožava multi-agentne demo prikaze. Više specijaliziranih agenata raspravlja, dijeli zadatke, preispituje jedan drugoga i na kraju navodno isporučuje “dublje razmišljanje” od jednog velikog modela. Zvuči logično. I izgleda sjajno na stageu. Ali nova arXiv studija reže kroz taj marketing mnogo jednostavnijim pitanjem: što se dogodi kad svim arhitekturama daš isti budžet tokena? Odgovor je neugodan za velik dio agentnog hypea: jedan agent često pobjeđuje cijelu ekipu.
Autori se ovdje oslanjaju na Data Processing Inequality, koncept iz teorije informacija koji, grubo rečeno, govori da dodatni slojevi obrade ne stvaraju čudesno novu informaciju iz ničega. U AI jeziku to znači da svako prebacivanje zadatka između agenata ima cijenu. Dio konteksta se komprimira, dio nestane, dio se zamijeni sažecima koji zvuče uredno, ali nose manje korisnog signala. Ako tomu dodaš i činjenicu da svaki agent troši vlastite tokene, benchmark pobjeda počinje izgledati više kao račun za orkestraciju nego kao dokaz pametnije arhitekture.
To ne znači da su multi-agentni sustavi besmisleni. Znači da su često pogrešno predstavljeni. Frameworkovi poput LangChaina i njegovih orkestracijskih slojeva pomažu timovima da zadatke rastave na dijelove, uvedu provjere i odvoje uloge. U praksi to može biti korisno. Ali korisno nije isto što i inherentno superiorno. Ako je jedina razlika to što mreža agenata dobiva više prostora za “razmišljanje”, onda je prava priča u budžetu, ne u arhitekturi.
Efikasnost umjesto ekipne razonode📷 © Tech&Space
Orkestracija izgleda impresivno sve dok u tablicu ne upišeš cijenu razmišljanja
Tu stvar postaje važna za proizvode, a ne samo za akademske tablice. Svaki dodatni agent znači više poziva, više latencije, više potencijalnih mjesta gdje kontekst može iskriviti zadatak i više troška po rezultatu. To možda nije problem u flashy demou ili internom eksperimentu, ali vrlo brzo postaje problem u proizvodu koji treba biti brz, predvidljiv i isplativ. Timovi koji grade “agent swarms” zato ne bi trebali samo pitati rade li agenti bolje. Trebali bi pitati rade li dovoljno bolje da opravdaju vlastiti overhead.
Ipak, pošteno je priznati i granicu ove teze. Jedan agent pobjeđuje najlakše u uvjetima gdje dobro koristi kontekst i gdje se zadatak ne raspada pod opterećenjem dugog ulaza. U stvarnom svijetu modeli i dalje gube fokus, miješaju ciljeve i zaboravljaju važne detalje. Upravo tu multi-agentni pristupi nalaze svoj najbolji argument: ne zato što su “pametniji”, nego zato što ponekad bolje upravljaju nesavršenim modelima.
Pravi signal ovdje je da AI industrija još jednom treba strože brojati trošak iza lijepog narativa. Ako agentni sustav pobjeđuje samo kad mu dopustiš više tokena, više poziva i više vremena, onda to nije čist dokaz bolje inteligencije. To je dokaz skuplje infrastrukture. A u tržištu u kojem cijena po pozivu i dalje definira što je održivo, to možda zvuči kao tehnički detalj, ali zapravo je razlika između proizvoda i prezentacije.