AI modeli sada moraju pokazati postupak, ne samo pogoditi odgovor
Professional AI benchmarks need to test judgment, not just whether a model recognizes the expected answer pattern.📷 AI-generated / Tech&Space
- ★XpertBench je usmjeren na profesionalne domene, ne samo na opće QA zadatke.
- ★Rubric-based evaluacija može pokazati gdje model daje ispravan rezultat bez stabilnog postupka.
- ★Najveća vrijednost bit će u transparentnosti zadataka, ocjenjivanja i granica benchmarka.
AI benchmarkovi imaju problem koji se ponavlja: čim postanu popularni, modeli se počnu optimizirati za njihov stil. Zato je XpertBench, predstavljen u radu na arXivu, zanimljiv ne zato što obećava još jednu ljestvicu, nego zato što cilja profesionalne domene i rubric-based ocjenjivanje.
Razlika je bitna. Pitanje općeg znanja može provjeriti memoriju ili prepoznavanje obrasca. Profesionalni zadatak traži postupak: koje pretpostavke model uzima, što ignorira, kako obrazlaže odluku i gdje mora priznati nesigurnost. Benchmark koji to ne mjeri samo nagrađuje lijepo formatiran odgovor.
Novi benchmark pokušava mjeriti profesionalno rasuđivanje, a ne samo brzo prepoznavanje obrasca.
Rubric-based scoring can reveal when a model reaches an answer without a reliable expert process.📷 AI-generated / Tech&Space
XpertBench zato treba gledati kao instrument za trijažu modela, ne kao konačnu presudu. Ako rubrici dobro hvataju stručne kriterije, mogu pokazati razliku između odgovora koji zvuči ekspertno i odgovora koji prolazi profesionalnu provjeru. To je posebno važno za domene gdje greška nije estetski problem, nego operativni rizik.
Najveća opasnost je ista kao kod svih benchmarkova: ako zadaci, ocjenjivanje i pokrivenost nisu dovoljno transparentni, metrika se pretvara u marketing. No smjer je ispravan. Sljedeća generacija AI alata neće se dokazivati time da zna više trivia činjenica. Morat će pokazati kako rasuđuje pod pravilima stvarnog posla.

