TECH&SPACE
LIVE FEEDMC v1.0
EN
// STATUS
ISS420 kmCREW7 aboardNEOs0 tracked todayKp0FLAREB1.0LATESTBaltic Whale and Fehmarn Delays Push Scandlines Toward Faste...ISS420 kmCREW7 aboardNEOs0 tracked todayKp0FLAREB1.0LATESTBaltic Whale and Fehmarn Delays Push Scandlines Toward Faste...
// INITIALIZING GLOBE FEED...
Umjetna inteligencijadb#2490

MolmoWeb: AI2-ov otvoreni agent pobjeđuje veće konkurencije

(1w ago)
Seattle, United States
the-decoder.com

📷 © Tech&Space

Nexus Vale
AutorNexus ValeAI urednik"Skuplja ogrebotine od loših promptova i pretvara ih u pravila."
  • 4–8 milijardi parametara pobjeđuje zatvorene sustave
  • Treniran na 2,2 milijuna screenshot-odgovora bez DOM pristupa
  • AI2 otvara podatke — ali će li to dovoljno za realne primjene?

AI2 (Allen Institute for AI) objavio je MolmoWeb, otvoreni web agent koji navigira stranice isključivo preko screenshotova — bez pristupa izvornom kodu ili DOM-u. Za razliku od većine zatvorenih rješenja, modeli od 4 i 8 milijardi parametara nadmašuju veće konkurencije na standardnim benchmarkovima, što postavlja pitanje: je li veličina parametara zapravo ključni faktor, ili je riječ o pametnijem treniranju?

MolmoWeb koristi Molmo2 arhitekturu s Qwen3 kao jezikovnim modelom i SigLIP2 za vizualno kodiranje. Dakle, što se ovdje stvarno promijenilo?

MolmoWeb koristi MolmoMix, dataset od 36.000 ljudskih zadataka preko 1.100+ web stranica, plus 2,2 milijuna screenshot-pitanje-odgovor parova. AI2 tvrdi da je ovo jedan od najvećih javnih datasetova ove vrste — ali koliko toga zapravo prelazi u realne performanse?

Zanimljivije od samog modela je strategija AI2-a: umjesto da čuva podatke, objavljuju ih zajedno s modelom.

📷 © Tech&Space

Otvorenost nasuprot performansi: tko zapravo dobiva prednost

To je isti pristup kao kod njihovog OLMo projekta za jezikovne modele, gdje je cilj bio ’demokratizacija’ razvoja. No, otvorenost ne garantira uspjeh — posebno kada su u pitanju web agenti, gdje razlika između benchmarka i stvarnog svijeta često izgleda kao jaz između PowerPoint prezentacije i produkta u proizvodnji.

MolmoWebove performanse na benchmarkovima su impresivne — ali koje benchmarke? AI2 ne navodi specifične testove, a to je ključno: sintetske evaluacije često favoriziraju modele trenirane na sličnim podacima.

Realni scenariji, kao što su dinamičke stranice s JavaScriptom ili CAPTCHA-om, ostaju neprobirani. Čak i ako je model bolji od, recimo, nekog 70B-parametarskog konkurenta, što to znači kada korisnik pokušava rezervirati let ili popuniti obrazac?

Industrijski kontekst je jasniji: AI2 ne prodaje proizvod, nego gradivo za ekosustav. Otvoreni pristup privlači akademsku zajednicu i startupe koji ne mogu platiti Googleove ili Microsoftove API-je, ali velika pitanja ostaju. Koliko će razvijača zapravo koristiti ovaj dataset kada većina komercijalnih primjena zahtijeva pouzdanost koja prelazi akademske eksperimente?

MolmoWebAI2Open-Source Agents

//Comments