Umjetna inteligencijadb#987

ARC-AGI-2: Što se krije iza novog benchmarka?

30. ožujka 2026.09:24(3w ago)

San Francisco, US

ARC-AGI-2: Što se krije iza novog benchmarka?📷 © Tech&Space

★125-token enkodiranje za efikasno rješavanje ARC zadataka
★Modificirani LongT5 za duge kontekste, ali bez real-world testova
★Augmentacija temeljena na grupnim simetriijama — teorija ili praksa?

Transformeri opet dobivaju novu ‘supermoć’ — ovaj put za Abstraction and Reasoning Corpus (ARC), benchmark dizajniran da testira generalizaciju izvan običnog prepoznavanja uzoraka. Autori tvrde da su kombiniranjem neuronske inferencije, structure-aware priors i online task adaptation postigli ‘napredak’ — ali, kao i uvijek, pitanje je što to znači van laboratorija.

Ključna inovacija? Reformulacija ARC-a kao sequence modeling problema s kompaktnim 125-token enkodiranjem. To omogućava modificiranom LongT5 modelu da procesuira duge kontekste bez eksplozije računske kompleksnosti. Zvuči impresionantno — dok se ne sjetite da ARC i dalje ostaje sintetički benchmark, daleko od kaotičnih real-world podataka.

Druga ‘velika stvar’ je principled augmentation framework temeljen na grupnim simetriijama, grid traversalima i perturbacijama automata. Cilj: osigurati invarijantnost na promjene reprezentacije. Ali, kao i kod većine augmentacijskih tehnika, pitanje ostaje: koliko ovo stvarno pomaže izvan kontroliranih uvjeta?

Demo nasuprot deploymenta: Tko zapravo koristi ove ‘napretke’?📷 © Tech&Space

Demo nasuprot deploymenta: Tko zapravo koristi ove ‘napretke’?

Hype filter: što je ovdje stvarno novo? Kombinacija neuronskih mreža i simboličkih priors nije nova — DeepMind i FAIR eksperimentiraju s tim godinama. Novina je, možda, efikasnost enkodiranja, ali bez usporedbe s postojećim rješenjima (npr. Neuro-Symbolic AI) teško je procijeniti stvarni skok.

Industrijska mapa: tko ovdje dobiva prednost? Primarno akademska zajednica i startapi koji grade na ARC-u — ali za production sisteme (npr. u robotici ili financijama) ovo je još uvijek previše teorijsko. GitHub reakcije su umjerene: dio developera hvali kompaktnost rješenja, ali većina čeka na real-world fine-tuning rezultate.

Developer signal: Hugging Face i EleutherAI još nisu pokrenuli replikacije, što govori više od bilo kojeg press releasea. A ako se ne replicira, je li to uopće napredak — ili samo još jedan arXiv papir koji će nestati u šumu?

ARC-AGI-2BenchmarkingAI Deployment

//Comments

Uredi u foto-review →