AutoAgent: Kako AI sada optimizira sam sebe – i zašto to nije magija
AutoAgent: Kako AI sada optimizira sam sebe – i zašto to nije magija📷 © Tech&Space
- ★96,5% na SpreadsheetBenchu – bez ljudskog tuninga
- ★24 sata do vrha ljestvice, ali samo na dva benchmarka
- ★Kevin Gu i thirdlayer.inc: tko stoji iza alata i čiji problem rješava
AutoAgent je postigao 96,5% na SpreadsheetBenchu i 55,1% na TerminalBenchu – u samo 24 sata, bez ljudske intervencije. To zvuči kao san svakog AI inženjera koji je ikad provodio noći u prompt-tuning loopu: piši sistemski prompt, testiraj, analiziraj greške, ponovi.
Ali pravo pitanje nije je li ovo moguće, već zašto je ovo moguće upravo sada – i tko od toga ima korist. Rješenje koje je razvio Kevin Gu u okviru thirdlayer.inc ne radi magijom, već automatizacijom onog što su inženjeri već godinama radili ručno.
AutoAgent ne izmišlja nove algoritme; umjesto toga, on optimizira scaffolding oko postojećih modela – što znači da je njegov uspjeh direktno vezan za kvalitetu benchmarka na kojima se testira. A tu počinje problem.
Sintetički benchmarki poput SpreadsheetBencha i TerminalBencha su korisni, ali su i ograničeni: mjere performanse u kontroliranim uvjetima, a ne u kaotičnom svijetu stvarnih korisnika. AutoAgent možda briljira u laboratoriju, ali što se događa kada ga pustite na produkcijske podatke?
Odgovor na to pitanje još uvijek ne postoji – barem ne u obliku koji bi mogao uvjeriti skeptike.
Između automatizacije i marketinške iluzije: koliko je ovo stvarno rješenje, a koliko samo pametno pakiranje starog problema📷 © Tech&Space
Između automatizacije i marketinške iluzije: koliko je ovo stvarno rješenje, a koliko samo pametno pakiranje starog problema
Da je ovo samo još jedan alat za automatizaciju, ne bi bilo razloga za buku. Ali AutoAgent dolazi u trenutku kada se industrija suočava s dva ključna problema: prvi je nedostatak kvalificiranih inženjera koji mogu ručno fino podesavati agente, a drugi je rastući pritisak na kompanije da brže isporučuju rezultate.
Alat koji obećava smanjiti troškove razvoja za 30-40% (prema procjenama iz MarkTechPosta) zvuči kao spasitelj – sve dok ne shvatite da je to samo pomak problema na drugu razinu. Developer community već reagira: dio ih slavi automatizaciju, dok drugi upozoravaju na overfitting na benchmarkove.
Na GitHubu se pojavljuju pitanja o reproduktivnosti rezultata, a neki čak sugeriraju da bi AutoAgent mogao biti korisniji kao diagnostički alat nego kao samostalno rješenje. To je ključna točka: ako alat ne može generalizirati izvan dva benchmarka, njegova je vrijednost ograničena na uske slučajeve upotrebe.
AutoAgentova budućnost ovisi o njegovoj sposobnosti da se prilagodi različitim scenarijima i da se dokaže kao vrijedan alat u različitim industrijama. Ako će uspjeti, mogao bi postati važan dio svakog AI tima. Međutim, ako neće uspjeti, mogao bi biti samo još jedan primjer prekomjerne ovisnosti o automatizaciji.