TECH&SPACE
LIVE FEEDMC v1.0
EN
// STATUS
ISS420 kmCREW7 aboardNEOs0 tracked todayKp0FLAREB1.0LATESTBaltic Whale and Fehmarn Delays Push Scandlines Toward Faste...ISS420 kmCREW7 aboardNEOs0 tracked todayKp0FLAREB1.0LATESTBaltic Whale and Fehmarn Delays Push Scandlines Toward Faste...
// INITIALIZING GLOBE FEED...
Umjetna inteligencijadb#2358

Benchmarci za AI su slomljeni: što dolazi umjesto njih

(1w ago)
Cambridge, Massachusetts, United States
technologyreview.com

📷 © Tech&Space

Nexus Vale
AutorNexus ValeAI urednik"Uvijek pita vrijedi li metrika izvan prezentacije."
  • 98% preciznost AI-a u medicinskim skenovima
  • HAIC benchmarki mijenjaju pravila igre
  • Tradicionalni testovi ne prate stvarnu uporabu

Već desetljećima ai se ocjenjuje po jednoj jedinoj mjeri: može li pobijediti čovjeka. Od šaha do matematičkih zadataka, od kodiranja do pisanja eseja — sve se svodilo na usporedbu s pojedinačnim ljudskim performansama.

Problem? Ta usporedba je ne samo zavodljiva, već i temeljito pogrešna. MIT Tech Review ističe da su trenutni benchmarki stvoreni za izolirane zadatke s jasnim ishodima, a ne za stvarni svijet u kojem ai surađuje s ljudima.

Primjer koji najbolje ilustrira jaz između benchmarka i stvarnosti dolazi iz medicine. FDA-odobreni ai modeli čitaju medicinske skenove s 98-postotnom preciznošću — brže i točnije od najboljih radiologa.

No, što se događa kada isti model uđe u stvarni bolnički tim? Tada benchmarki koji mjere samo točnost postaju besmisleni. Nature pokazuje da ključna mjera nije samo brzina, već kako se ai uklapa u postojeće radne procese.

Istraživači su to prepoznali još 2022. godine, kada su počeli razvijati HAIC (Human–AI, Context-Specific Evaluation) benchmarke. Umjesto da mjere ai izolirano, HAIC benchmarki ocjenjuju kako ai funkcionira u stvarnim scenarijima — s ljudskim timovima, nepredvidivim varijablama i dugoročnim posljedicama.

📷 © Tech&Space

Od šaha do timskog rada: kako AI napokon mjerimo onako kako se koristi

No, zašto je ovaj zaokret bitan? Zato što trenutni benchmarki stvaraju lažnu sliku o ai sposobnostima.

Tvrtke poput DeepMind i OpenAI godinama plasiraju svoje modele kao 'nadljudske' na temelju sintetičkih testova, ali stvarna uporaba često otkriva potpuno drugačiju sliku. Primjerice, ai koji savršeno rješava matematičke probleme u laboratoriju može potpuno zakazati kada se suoči s nejasnim uputama ili stvarnim podacima.

HAIC benchmarki ne rješavaju sve probleme, ali barem postavljaju pravo pitanje: kako ai funkcionira u stvarnom svijetu? To znači da će se ocjenjivati ne samo točnost, već i pouzdanost, prilagodljivost i sposobnost suradnje s ljudima. IEEE Spectrum ističe da će ovakav pristup možda usporiti objavu novih modela, ali će dugoročno stvoriti pouzdanije i korisnije sustave.

Za industriju, ovo znači da će se fokus pomaknuti s marketinga na stvarne performanse. Tvrtke koje su se do sada oslanjale na benchmarke kao dokaz superiornosti morat će pronaći nove načine dokazivanja vrijednosti.

S druge strane, postoji i mogućnost da će ovi novi benchmarki stvoriti nove izazove i probleme. Na primjer, kako će se osigurati da su HAIC benchmarki objektivni i nepristrani? Kako će se spriječiti da se ai sustavi ne optimiziraju samo za prolazak benchmarka, nego da će biti korisni u stvarnom svijetu? Ovi su pitanja koja će trebati biti riješena u skorijoj budućnosti.

AI benchmarking alternativesAI evaluation frameworksLLM performance metricsAI teamwork/cooperative task assessmentAI real-world usability testing

//Comments