Točnost nije dovoljna: simbolička mehanika protiv AI šorteva

Točnost nije dovoljna: simbolička mehanika protiv AI šorteva📷 © Tech&Space
- ★Mehanizam-aware evaluacija umjesto pukog accuracyja
- ★NL-to-SQL test otkriva krhke heuristike modela
- ★Razlika između generalizacije i pamćenja schema
ArXivov rad 2603.23517 ne nudi novi model, nego novi način ocjenjivanja — što je, ironično, puno važnije od još jednog finetuneanog transformera. Autori ne osporavaju točnost kao metriku, nego njenu nedovoljnost: u režimima s malim podacima, visoka točnost skriva memorizaciju, data leakage ili krhke heuristike koje se lome pri prvom realnom testu.
Ključna inovacija? Kombiniranje simboličkih pravila specifičnih za zadatak (npr.
SQL sintaksa) s mehanističkom interpretabilnošću — što rezultira binarnim prolazi/pada rezultatima koji precizno pokazuju gdje model razumije, a gdje samo pretpostavlja. Demonstracija na NL-to-SQL zadatku je namjerno surova: isti arhitektonski model treniran je pod dva uvjeta — jedan bez informacija o shemi baze, drugi s njima.
Rezultati pokazuju da 'pametniji' model (onaj s višom točnošću) zapravo eksploatira shematske obrasce umjesto da generira upite na temelju semantičkog razumijevanja. To nije samo akademska nitkohranica — upravo ovakvi shortcutovi su razlog zašto 80% 'uspješnih' chatbotova u productionu postane beskorisno čim korisnik skrene s učenog scenarija.
Ovdje se krije pravi hype filter: autorima nije cilj pobijediti SOTA benchmarkove, nego pokazati kako ih dekonstruirati. To je rijetka vrsta rada koji ne prodaje 'bolje rezultate', nego 'bolje pitanja'.

Demo nasuprot deploymenta: tko zapravo dobiva prednost📷 © Tech&Space
Demo nasuprot deploymenta: tko zapravo dobiva prednost
Realnost je, naravno, složenija od demo primjera. Metoda zahtijeva ručno definirana simbolička pravila za svaki zadatak — što je u industriji gdje se 'skalabilnost' ponavlja kao mantra potencijalno neprohodan problem.
Ali upravo ta neskalabilnost može biti prednost: ako se pokaže da samo 10% zadataka zahtijeva ovakav pristup da bi se otkrile kritične pukotine, to je i dalje bolje od slijepog vjerovanja u točnost metrike. Reakcije na r/ML sugeriraju da dio communityja već eksperimentira s sličnim pristupima, ali bez formaliziranog okvira — ovdje imamo prvi korak ka standardizaciji.
Najzanimljivije je tko ovime gubi: startupima koji prodaju 'black-box' rješenja za enterprise postaje teže skrivati nedostatke iza 'visoke točnosti'. S druge strane, igračima poput Weights & Biases ili Arize AI — koji se specijaliziraju za observabilnost i debugging — ovo je besplatan marketing.
Ako se pristup ukorijeni, možemo očekivati val 'mehanizam-aware' alata koji će biti prodavani kao compliance za kritične sustave, a ne kao 'nice-to-have' feature. Stvarno usko grlo možda uopće nije u modelima, nego u našoj volji da prihvatimo da su 'dobri rezultati' često samo iluzija — a to je poruka koju malo tko u AI marketingu želi čuti.