CAT testovi za LLM-ove: jeftinija medicina ili novi benchmarking cirkus?
📷 © Tech&Space
- ★38 LLM-ova testirano adaptivnim medicinskim kvizovima
- ★Monte Carlo simulacije umjesto statičkih benchmarka
- ★Psihometrija protiv *data contamination* troškova
Novo istraživanje na arXiv-u (2603.23506v1) ne nudi još jedan 'revolucionarni' LLM benchmark, već pokušava riješiti dosadni problem: statičke medicinske teste za modele koštaju previše, brzo zastariju i lako ih kontaminiraju podaci. Umjesto toga, autori predlažu Computerized Adaptive Testing (CAT) — metodu koja već desetljećima radi u psihometriji, ali je sada prilagođena za evaluaciju 38 velikih jezikovnih modela.
Riječ je o dvofaznom pristupu: prvo Monte Carlo simulacije koje kalibriraju težinu pitanja, potom empirijska validacija na human-calibrated medicinskom item banku. Ključna prednost?
Test se dinamički prilagođava razini modela — što znači manje pitanja za iste rezultate, manju potrošnju resursa i (teorijski) kraći ciklus ažuriranja. Ali ovdje se pojavljuje prvi reality gap: dok je CAT u klasičnom testiranju dokazan, njegov prijelaz na LLM-e zahtijeva pretpostavku da modele možemo tretirati kao 'ispitanike' s konzistentnim znanjem.
A to, kao što zna svaki inženjer koji je radio s few-shot prompting-om, nije uvijek slučaj.
📷 © Tech&Space
Item Response Theory nasuprot marketing hypeu — tko zapravo štedi?
Glavno pitanje nije da li ovo radi — autori tvrde da jesu potvrdili efikasnost — već tko od ovoga ima korist. Za startupe koji grade specijalizirane medicinske LLM-ove (poput AbridgeAI ili Hippocratic AI), CAT bi mogao smanjiti troškove certifikacije za 40-60%, prema procjenama iz studije.
Veliki igrači poput Google Health ili Microsoft Healthcare, međutim, vjerojatno neće žuriti — njihovi modeli već imaju pristup privatnim, kontroliranim datasetovima gdje data contamination nije problem. Zanimljivije je pitanje community reakcije: na r/MachineLearning se već pojavljuju komentari o 'još jednom sloju apstrakcije između benchmarka i stvarnog svijeta', dok dio istraživača na GitHub-u ističe da IRT (Item Response Theory) zahtijeva fine-tuned item banku — što znači da će manji timovi morati ulagati u ručno kalibriranje pitanja, umjesto da samo skidaju gotove benchmarke.
Pravi test za ovaj pristup neće biti akademska validacija, već ko će ga prvotno usvojiti. Ako ga prihvate regulatori (npr. FDA za AI u medicini), CAT bi mogao postati standard.
Ako ostane samo u arXiv paperima, bit će još jedan alat koji 'radi u teoriji' — ali ne i u production-u.