Umjetna inteligencijadb#962

RealChart2Code: benchmark koji razotkriva slabosti VLMova u stvarnom svijetu

30. ožujka 2026.06:15(3w ago)

San Francisco, US

RealChart2Code: benchmark koji razotkriva slabosti VLMova u stvarnom svijetu📷 © Tech&Space

★14 VLMova pod lupom na realnim podacima
★Prvi benchmark za generiranje grafikona iz sirovih podataka
★Znatno lošiji rezultati nego u sintetičkim testovima

RealChart2Code nije samo još jedan benchmark za vizualno-jezične modele (VLMove). To je prvi sustavni test koji provjerava kako ti modeli barataju s kompleksnim, višestrukim grafikonima iz stvarnih podataka – onakvima kakve koriste analitičari i znanstvenici. Prema studiji objavljenoj na arXiv-u pod brojem 2603.25804v1, benchmark sadrži preko 2.800 instanci temeljenih na autentičnim skupovima podataka, a svaka od njih zahtijeva ne samo prepoznavanje vizualnih elemenata, već i generiranje funkcionalnog koda koji će replicirati grafikon s jasnom analitičkom namjerom.

Istraživači su testirali 14 vodećih VLMova, uključujući modele poput GPT-4V, LLaVA-Next i DeepSeek-VL. Rezultati su bili razočaravajući: čak i najbolji modeli postigli su točnost ispod 40% u prvom pokušaju, a performanse su se dodatno pogoršale u iterativnim scenarijima s više krugova dorade koda. To nije samo tehnički detalj – pokazuje kako su trenutačni VLMovi daleko od praktične primjene u stvarnim analitičkim okruženjima.

Najzanimljiviji dio studije nije samo benchmark, već kontekst u kojem je kreiran. Za razliku od većine sintetičkih testova koji koriste idealizirane podatke, RealChart2Code zahtijeva od modela da razumiju i generiraju kod za grafikone koji često sadrže nepravilnosti, nedostajuće vrijednosti ili kompleksne hijerarhije elemenata. To je scenario koji daleko bolje odražava stvarne izazove s kojima se susreću programeri i analitičari.

Što se dogodi kad AI mora replicirati stvarne, višestruke vizualizacije?📷 © Tech&Space

Što se dogodi kad AI mora replicirati stvarne, višestruke vizualizacije?

Benchmark također otkriva kritičnu slabost trenutnih VLMova: sposobnost iterativnog poboljšanja koda. U stvarnom svijetu, rijetko koji programer generira savršeni kod u prvom pokušaju – obično slijedi nekoliko krugova dorade i testiranja. Međutim, RealChart2Code pokazuje da su modeli značajno lošiji u ovom višestrukom scenariju nego u jednom prolazu. To ukazuje na temeljni problem: VLMovi još uvijek ne razumiju dovoljno dobro kontekst i namjeru iza generiranog koda.

Za industriju, ovi rezultati imaju nekoliko implikacija. Prvo, kompanije koje razvijaju VLMove sada imaju jasnu metriku za mjerenje napretka – ne samo u generiranju koda, već u njegovoj praktičnoj primjenjivosti. Drugo, tvrtke koje se oslanjaju na automatsku generaciju grafikona (npr. alat za poslovnu inteligenciju ili znanstvene platforme) morat će ili smanjiti očekivanja ili investirati u dodatne slojeve ljudske verifikacije.

Evo pravog ironičnog detalja: dok se u marketinškim materijalima često ističe sposobnost VLMova da generiraju kod 'kao programeri', RealChart2Code pokazuje da je jaz između benchmarka i proizvoda ogroman. Čak i ako model uspješno generira kod za jednostavan grafikon, vjerojatnost da će to raditi pouzdano na kompleksnim, realnim podacima je minimalna. Drugim riječima, demo još uvijek nije proizvod.

RealChart2CodeVLMo

//Comments

Uredi u foto-review →

RealChart2Code: benchmark koji razotkriva slabosti VLMo­va u stvarnom svijetu

//Comments

RealChart2Code: benchmark koji razotkriva slabosti VLMova u stvarnom svijetu