Mimosa testira AI agente koji popravljaju vlastiti istraživački workflow
AI-generated Tech&Space editorial visual.📷 AI-generated / Tech&Space
- ★Mimosa postiže 43,1% uspješnosti na ScienceAgentBenchu s DeepSeek-V3.2 u iterative-learning modu.
- ★MCP i Toolomics omogućuju dinamičko otkrivanje alata, dok meta-orchestrator mijenja topologiju agenata nakon evaluacije.
- ★Rezultati pokrivaju 102 pojedinačna znanstvena zadatka, a ne punu automatizaciju istraživačkog ciklusa.
Mimosa ulazi u prenapučeni prostor autonomne znanosti s korisno neugodnom tezom: problem nije samo u tome koji LLM vodi eksperiment, nego u tome što većina agentic sustava ima previše krut plan rada. ArXiv rad opisuje okvir koji za svaki zadatak gradi novi multi-agent workflow, povezuje ga s dostupnim alatima preko Model Context Protocola i zatim ga popravlja nakon stvarnog izvršavanja.
To nije isto što i magični AI znanstvenik. Mimosa je prije mehanizam za preživljavanje neurednih računalnih zadataka: agenti dobiju uloge, generiraju Python kod, pozivaju znanstvene biblioteke i alate, a LLM judge ocjenjuje trag izvršavanja. Meta-orchestrator onda mijenja workflow, promptove, veze između agenata ili raspodjelu alata. Umjesto jedne duge sesije koja postupno gubi cilj, sustav pokušava razbiti posao u manje dijelove i učiti iz grešaka.
Najjača brojka iz rada je 43,1% uspješnosti na ScienceAgentBenchu s DeepSeek-V3.2 u iterative-learning modu. Benchmark obuhvaća 102 zadatka iz 44 recenzirana rada u bioinformatici, računalnoj kemiji, geografskim informacijskim znanostima i psihologiji/kognitivnoj neuroznanosti. To je bitno jer se ne mjeri dojam razgovora s agentom, nego može li proizvesti program i rezultat koji prolaze domenski definiranu evaluaciju.
WORKFLOW JE SADA DIO MODELA
Mimosa je zanimljiva jer tretira workflow kao objekt koji se može mijenjati, a ne kao infrastrukturu zadanu prije pokretanja. U klasičnom agent stacku netko unaprijed odluči tko pretražuje podatke, tko piše kod, tko provjerava rezultat i kojim redom se sve odvija. Ako se zadatak pokaže drukčijim od očekivanog, sustav često nastavlja gurati isti loš plan.
U Mimosa pristupu meta-orchestrator sintetizira workflow za konkretan zadatak, a zatim ga iterativno mutira. MCP i prateći Toolomics služe kao sloj za otkrivanje alata, pa agenti nisu vezani samo za statički popis funkcija. Mimosa-AI repozitorij opisuje isti smjer: otvoreni okvir za autonomno znanstveno računanje, s naglaskom na audit trail, reproducibilnost i evoluciju workflowa.
Taj dio je važniji od marketinga oko AI znanstvenika. Znanstveni rad često ne puca zato što model ne zna jednu činjenicu, nego zato što se promijeni format podataka, ovisnost nije instalirana, alat vrati neočekivan output ili prva hipoteza pošalje analizu u slijepu ulicu. Mimosa ne rješava sve to, ali barem pokušava imati mehanizam za promjenu plana nakon što stvarnost uzvrati.
Rezultat od 43,1% na ScienceAgentBenchu nije dokaz autonomne znanosti, nego ozbiljan signal da statični agenti pucaju čim se zadatak promijeni.
AI-generated Tech&Space explanatory visual.📷 AI-generated / Tech&Space
REZULTAT JE DOBAR, ALI NIJE ČISTA POBJEDA
Tablica rezultata traži hladnu interpretaciju. DeepSeek-V3.2 kao single-agent već postiže 38,2% uspješnosti uz vrlo nizak trošak po zadatku. Statični one-shot multi-agent workflow s istim modelom pada na 32,4%, što je podsjetnik da više agenata ne znači automatski bolji sustav. Tek iterative-learning varijanta diže rezultat na 43,1% i CodeBERTScore na 0,921, uz oko 1,7 dolara po zadatku.
Drugim riječima, vrijednost nije u multi-agent etiketi, nego u adaptaciji. Ako agenti samo glume tim s unaprijed nacrtanim dijagramom, koordinacija može dodati trenje. Ako sustav smije analizirati neuspjeh i presložiti workflow, tada se pojavljuje stvarni signal. Autori pritom jasno pokazuju da učinak ovisi o modelu: GPT-4o i Claude Haiku 4.5 reagiraju drukčije, a Claude u iterative-learning modu čak blago pada u odnosu na one-shot multi-agent konfiguraciju.
Ograničenja su zato ključna za poštenu priču. Evaluacija je rađena na pojedinačnim taskovima, ne na cijelom znanstvenom ciklusu od hipoteze do publikacije. Planning layer je u task modu zaobiđen kako bi se izolirao učinak orchestracije. Autori navode i confound oko okruženja: Mimosa agenti sami postavljaju dependencije i putanje, dok neke ScienceAgentBench baseline konfiguracije koriste unaprijed pripremljena okruženja. To otežava čisto pripisivanje dobitka samo multi-agent decompoziciji.
Još jedan oprez dolazi iz same metode učenja. LLM judge daje smjer za poboljšanje, ali judge sustavi mogu imati bias i nisu isto što i nezavisna znanstvena validacija. U radu je dobro razdvojeno da se Success Rate računa benchmark skriptama, dok judge služi za optimizaciju workflowa. Ipak, budući rad mora bolje pokazati koliko judge feedback stvarno korelira s uspjehom po zadatku, koliko rezultati variraju kroz više seedova i gdje single-incumbent search počinje stagnirati.
Najbolja verzija priče o Mimosa nije da AI sada radi znanost sam. Bolja je i korisnija: agenti za znanstveno računanje trebaju arhitekturu koja se može mijenjati nakon greške, a ne samo veći model i dulji kontekst. Ako se taj princip potvrdi na širim, ponovljivim i stvarno laboratorijski povezanim zadacima, autonomna znanost neće krenuti od spektakularnog demoa. Krenut će od dosadnog, ali presudnog detalja: workflowa koji zna priznati da mu je prvi plan bio loš.
