TECH&SPACE
LIVE FEEDMC v1.0
EN
// STATUS
ISS420 kmCREW7 aboardNEOs0 tracked todayKp0FLAREB1.0LATESTBaltic Whale and Fehmarn Delays Push Scandlines Toward Faste...ISS420 kmCREW7 aboardNEOs0 tracked todayKp0FLAREB1.0LATESTBaltic Whale and Fehmarn Delays Push Scandlines Toward Faste...
// INITIALIZING GLOBE FEED...
Umjetna inteligencijadb#962

RealChart2Code: benchmark koji razotkriva slabosti VLMo­va u stvarnom svijetu

(3w ago)
San Francisco, US
arxiv.org
RealChart2Code: benchmark koji razotkriva slabosti VLMo­va u stvarnom svijetu

RealChart2Code: benchmark koji razotkriva slabosti VLMo­va u stvarnom svijetu📷 © Tech&Space

  • 14 VLMo­va pod lupom na realnim podacima
  • Prvi benchmark za generiranje grafikona iz sirovih podataka
  • Znatno lošiji rezultati nego u sintetičkim testovima

RealChart2Code nije samo još jedan benchmark za vizualno-jezične modele (VLMo­ve). To je prvi sustavni test koji provjerava kako ti modeli barataju s kompleksnim, višestrukim grafikonima iz stvarnih podataka – onakvima kakve koriste analitičari i znanstvenici. Prema studiji objavljenoj na arXiv-u pod brojem 2603.25804v1, benchmark sadrži preko 2.800 instanci temeljenih na autentičnim skupovima podataka, a svaka od njih zahtijeva ne samo prepoznavanje vizualnih elemenata, već i generiranje funkcionalnog koda koji će replicirati grafikon s jasnom analitičkom namjerom.

Istraživači su testirali 14 vodećih VLMo­va, uključujući modele poput GPT-4V, LLaVA-Next i DeepSeek-VL. Rezultati su bili razočaravajući: čak i najbolji modeli postigli su točnost ispod 40% u prvom pokušaju, a performanse su se dodatno pogoršale u iterativnim scenarijima s više krugova dorade koda. To nije samo tehnički detalj – pokazuje kako su trenutačni VLMo­vi daleko od praktične primjene u stvarnim analitičkim okruženjima.

Najzanimljiviji dio studije nije samo benchmark, već kontekst u kojem je kreiran. Za razliku od većine sintetičkih testova koji koriste idealizirane podatke, RealChart2Code zahtijeva od modela da razumiju i generiraju kod za grafikone koji često sadrže nepravilnosti, nedostajuće vrijednosti ili kompleksne hijerarhije elemenata. To je scenario koji daleko bolje odražava stvarne izazove s kojima se susreću programeri i analitičari.

Što se dogodi kad AI mora replicirati stvarne, višestruke vizualizacije?

Što se dogodi kad AI mora replicirati stvarne, višestruke vizualizacije?📷 © Tech&Space

Što se dogodi kad AI mora replicirati stvarne, višestruke vizualizacije?

Benchmark također otkriva kritičnu slabost trenutnih VLMo­va: sposobnost iterativnog poboljšanja koda. U stvarnom svijetu, rijetko koji programer generira savršeni kod u prvom pokušaju – obično slijedi nekoliko krugova dorade i testiranja. Međutim, RealChart2Code pokazuje da su modeli značajno lošiji u ovom višestrukom scenariju nego u jednom prolazu. To ukazuje na temeljni problem: VLMo­vi još uvijek ne razumiju dovoljno dobro kontekst i namjeru iza generiranog koda.

Za industriju, ovi rezultati imaju nekoliko implikacija. Prvo, kompanije koje razvijaju VLMo­ve sada imaju jasnu metriku za mjerenje napretka – ne samo u generiranju koda, već u njegovoj praktičnoj primjenjivosti. Drugo, tvrtke koje se oslanjaju na automatsku generaciju grafikona (npr. alat za poslovnu inteligenciju ili znanstvene platforme) morat će ili smanjiti očekivanja ili investirati u dodatne slojeve ljudske verifikacije.

Evo pravog ironičnog detalja: dok se u marketinškim materijalima često ističe sposobnost VLMo­va da generiraju kod 'kao programeri', RealChart2Code pokazuje da je jaz između benchmarka i proizvoda ogroman. Čak i ako model uspješno generira kod za jednostavan grafikon, vjerojatnost da će to raditi pouzdano na kompleksnim, realnim podacima je minimalna. Drugim riječima, demo još uvijek nije proizvod.

RealChart2CodeVLMo

//Comments