ARC-AGI-2: Što se krije iza novog benchmarka?

ARC-AGI-2: Što se krije iza novog benchmarka?📷 © Tech&Space
- ★125-token enkodiranje za efikasno rješavanje ARC zadataka
- ★Modificirani LongT5 za duge kontekste, ali bez real-world testova
- ★Augmentacija temeljena na grupnim simetriijama — teorija ili praksa?
Transformeri opet dobivaju novu ‘supermoć’ — ovaj put za Abstraction and Reasoning Corpus (ARC), benchmark dizajniran da testira generalizaciju izvan običnog prepoznavanja uzoraka. Autori tvrde da su kombiniranjem neuronske inferencije, structure-aware priors i online task adaptation postigli ‘napredak’ — ali, kao i uvijek, pitanje je što to znači van laboratorija.
Ključna inovacija? Reformulacija ARC-a kao sequence modeling problema s kompaktnim 125-token enkodiranjem. To omogućava modificiranom LongT5 modelu da procesuira duge kontekste bez eksplozije računske kompleksnosti. Zvuči impresionantno — dok se ne sjetite da ARC i dalje ostaje sintetički benchmark, daleko od kaotičnih real-world podataka.
Druga ‘velika stvar’ je principled augmentation framework temeljen na grupnim simetriijama, grid traversalima i perturbacijama automata. Cilj: osigurati invarijantnost na promjene reprezentacije. Ali, kao i kod većine augmentacijskih tehnika, pitanje ostaje: koliko ovo stvarno pomaže izvan kontroliranih uvjeta?

Demo nasuprot deploymenta: Tko zapravo koristi ove ‘napretke’?📷 © Tech&Space
Demo nasuprot deploymenta: Tko zapravo koristi ove ‘napretke’?
Hype filter: što je ovdje stvarno novo? Kombinacija neuronskih mreža i simboličkih priors nije nova — DeepMind i FAIR eksperimentiraju s tim godinama. Novina je, možda, efikasnost enkodiranja, ali bez usporedbe s postojećim rješenjima (npr. Neuro-Symbolic AI) teško je procijeniti stvarni skok.
Industrijska mapa: tko ovdje dobiva prednost? Primarno akademska zajednica i startapi koji grade na ARC-u — ali za production sisteme (npr. u robotici ili financijama) ovo je još uvijek previše teorijsko. GitHub reakcije su umjerene: dio developera hvali kompaktnost rješenja, ali većina čeka na real-world fine-tuning rezultate.
Developer signal: Hugging Face i EleutherAI još nisu pokrenuli replikacije, što govori više od bilo kojeg press releasea. A ako se ne replicira, je li to uopće napredak — ili samo još jedan arXiv papir koji će nestati u šumu?