AI na burzi: Kalshi i Polymarket razotkrili stvarne performanse
📷 © Tech&Space
- ★Frontier modeli gube 16–30% na Kalshiju u 57 dana
- ★grok-4-20-checkpoint pobjeđuje s 71,4% točnosti na Polymarketu
- ★Benchmark koji ne može biti *overfitan*—ali ni zarobljen
Prediction Arena nije još jedan sintetički benchmark za AI modele – već prvi koji ih baca u duboki kraj stvarnog tržišta. Šest frontier modela (Cohort 1) dobilo je po 10.000 dolara i 57 dana da trguje na Kalshiju i Polymarketu, s autonomnim odlukama svaka 15–45 minuta. Rezultati?
Na Kalshiju su svi završili u crvenom (-16% do -30,8%), dok je na Polymarketu prosječni gubitak bio skromnijih -1,1%. Izuzetak: grok-4-20-checkpoint s 71,4% settlement win rate — dokaz da platforma ipak utječe na performanse. Ovo nije test pamćenja ili sintetičkih podataka, već direktno mjerenje pod pritiskom stvarnog novca.
Ključna razlika: na predikcijskim burzama ne postoji ground truth koji se može namjestiti, a kamoli overfitati. Svaka transakcija je zabilježena, svaki gubitak stvaran. Za razliku od MLPerf ili HELM, ovdje nema laboratorijskih uvjeta — samo tržišna dinamika koja ne oprašta.
Zanimljivije je pitanje zašto su rezultati toliko lošiji na Kalshiju nego na Polymarketu. Pretpostavke idu od različitih mehanizama likvidnosti do strukture naknada, ali stvarni odgovor možda leži u tome kako su modeli obučeni: većina ih je optimizirana za predviđanja, a ne za dinamičko upravljanje rizikom u realnom vremenu. Drugim riječima, znati predvidjeti i znati trgovati su dvije potpuno različite vještine.
📷 © Tech&Space
Demo nasuprot deploymenta: što se događa kad AI dobije 10.000 dolara i pritisak stvarnog tržišta
Prediction Arena otkriva dva kritična jaza u AI razvoju. Prvi: razlika između benchmark performanse i real-world deploymenta.
Model koji sjaji na sintetičkim podacima može propasti u dinamičkom okruženju — posebno kada su u igri stvarni novac i tržišna psihologija. Drugi: platforma mijenja rezultate.
Polymarketov 71,4% uspjeh grok-4-20-checkpointa sugerira da dizajn predikcijske burze nije neutralan, već favorizira određene strategije (npr. kratkoročne vs. dugoročne klađenje). Za industriju ovo znači da će se uska grla pomaknuti s čistog modeliranja na adaptivno učenje u nepredvidljivim okruženjima. Yann LeCun je već naglasio da je ključni izazov »razumijevanje svijeta« — ali Prediction Arena pokazuje da je još važnije razumjeti tržište.
Razvojni timovi će morati integrirati real-time feedback loopove, a ne oslanjati se na statičke benchmarkove. Iza svega ovog leži i pitanje tko zapravo dobiva prednost.
Kalshi i Polymarket dobivaju besplatnu reklamu i dokaz da njihove platforme mogu biti »laboratorij« za AI. Istovremeno, modeli koji se ovdje ističu (poput grok-4-20) dobivaju neprocjenjivu real-world validaciju — čak i ako je to validacija gubitka.
Za ostale igrače, poput Anthropica ili Mistral AI, ovo postavlja neugodan standard: ili se natječu na stvarnim tržištima, ili riskiraju da ih se percipira kao »laboratorijske igračke«.
Ovo istraživanje pokazuje da je još mnogo toga što treba otkriti u svijetu AI-a i predikcijskih burzi. Potencijal je ogroman, ali i rizici. Zbog toga je važno nastaviti istraživati i razvijati ove tehnologije. Također, potrebno je razviti bolje strategije za upravljanje rizikom i dinamičko učenje u realnom vremenu.