LogicDiff otkriva: razlog lošeg rasuđivanja nije u modelu, nego u redoslijedu
📷 © Tech&Space
- ★60,7% točnosti na GSM8K umjesto 22,0% — bez treniranja modela
- ★4,2M parametara (0,05% baze) predviđa logičke uloge s 98,4% točnošću
- ★Dodatni overhead od 6% brzina za razumijevanje koje radi *prioritet*
Maskirani difuzijski jezici (MDLM-i) već godinama obećavaju paralelno generiranje teksta s kontekstom u oba smjera, ali ih nitko ne koristi za ozbiljne zadatke rasuđivanja. Razlog? Standardna strategija otkrivanja tokena sustavno odgađa logičke veznike (poput 'ako', 'ali', 'zato'), ključne točke grananja u lancima zaključivanja. Evo ironije: problem nije u modelu, nego u naivnom redoslijedu kojim ga koristimo.
LogicDiff iz Stanforda i UC Berkeleya ne mijenja arhitekturu, ne zahtijeva pretreniranje, ni čak fine-tuning. Umjesto povjerenja u confidence score, uvodom klasifikatora od 4,2 milijuna parametara (0,05 % veličine baze) predviđa logičku ulogu svakog tokena i otkriva ih po prioritetu.
Rezultat? Na GSM8K benchmarku LLaDA-8B-Instruct skoči s 22,0 % na 60,7 % točnosti (+38,7 postotnih bodova), dok na MATH-500 postigne skromniji, ali značajan porast s 23,6 % na 29,2 %.
📷 © Tech&Space
Marketing traži revoluciju u arhitekturi, a rješenje leži u 0,05% modela
Ovdje je ključna razlika: LogicDiff ne popravlja model, nego ispravlja naš pristup. To je kao otkriti da vaš superračunalo radi sporo jer mu pogrešno ugrađujete RAM — a ne zato što procesor nije dovoljno jak.
Zašto ovo nije samo još jedan benchmark trik? Jer LogicDiff ne optimizira za točnost na papiru, nego za strukturnu integraciju logike u generirani tekst. Klasifikator ne gleda sadržaj tokena, nego njegovu ulogu u argumentaciji (npr. je li hipoteza, pretpostavka, zaključak). To objašnjava zašto metoda radi bolje na GSM8K (gdje je logička struktura jasna) nego na MATH-500 (gdje su problemi kompleksniji i manje linearni).
Industrijski signal je jasno upućen prema startapima koji grade na difuzijskim modelima (poput Adept AI ili Character.AI): umjesto da troše milijune na skaliranje, možda je vrijedno pogledati kako koristite ono što već imate.
Zanimljivo je i što developer community već primjećuje da bi sličan pristup mogao funkcionirati i za multimodalne modele (npr. pri generiranju koda iz prirodnog jezika, gdje su logičke veze između blokova kritične). Ovo otvara nove mogućnosti za istraživanje i primjenu umjetne inteligencije u različitim područjima.