Bankari su AI agentima dali pravi posao i zaustavili svaku isporuku
A banking review room shows AI deliverables stopped at a client-ready gate marked 0%.📷 AI-generated / Tech&Space
- ★Oko 500 sadašnjih i bivših bankara ocjenjivalo je AI rezultate na 100 realističnih investicijsko-bankarskih zadataka
- ★Nijedan model nije proizveo rezultat spreman za klijenta, a 41% izlaza tražilo je veliku doradu
- ★AI je korisniji kao početni nacrt nego kao završni proizvod jer greške u formulama, logici i izvorima ruše povjerenje
BankerToolBench cilja baš onu zonu u kojoj generativni AI obično izgleda uvjerljivo dok ne dođe račun za grešku. Prema The Decoderu i javnom repozitoriju BankerToolBench, Handshake AI i McGill University složili su benchmark za posao junior bankara: financijski modeli u Excelu, PowerPoint prezentacije za klijente, PDF izvještaji i Word memorandumi. To nije chat s jednim točnim odgovorom.
To je multi-file posao u kojem formula, broj, izvor i stil moraju ostati usklađeni. U testu je sudjelovalo oko 500 sadašnjih i bivših investicijskih bankara. Dio njih, 172 bankara, dizajnirao je same zadatke i uložio više od 5.700 sati rada. Benchmark sadrži 100 zadataka, a ljudskom bankaru je za jedan zadatak u prosjeku trebalo pet sati, dok su neki trajali do 21 sat. Ta razina rada objašnjava zašto je rezultat neugodan za AI marketing: nijedan izlaz iz devet testiranih modela nije ocijenjen spremnim za slanje klijentu.
Važno je što ovdje znači "spremno za klijenta". To ne znači da tekst zvuči profesionalno. Znači da se model može predati bez skrivenih grešaka u proračunu, bez krivih pretpostavki, bez nedosljednih brojki između slajdova i bez rupa u revizijskom tragu. Bankar koji šalje izvještaj ne prodaje dojam, nego pouzdan dokument. Zato su kriteriji obuhvatili tehničku točnost, spremnost za klijenta, usklađenost, provjerljivost i dosljednost kroz datoteke.
Podaci su tvrdi. Bankari su ocijenili da 41% AI izlaza traži veliku doradu, a 27% je potpuno neupotrebljivo. Samo 13% moglo bi proći uz lagane izmjene, ali nijedan rezultat nije mogao otići klijentu takav kakav jest. Najbolji model u testu, GPT-5.4, došao je najviše, no i dalje nije blizu bankarskog praga: samo 16% njegovih izlaza prošlo je kao koristan početni materijal, a kada se tražila konzistentnost kroz tri pokušaja, taj udio pada na 13%.
BankerToolBench nije mjerio samo lijepe odgovore, nego Excel modele, deckove i izvještaje koji u investicijskom bankarstvu moraju preživjeti formule, reviziju i odgovornost.
A financial model is marked with audit notes for hardcoded values, broken formulas, and source gaps.📷 AI-generated / Tech&Space
Najbolji dio benchmarka je i najokrutniji: test ne pada na velikim filozofskim pitanjima, nego na sitnim poslovnim detaljima.
Claude Opus 4.6 je, prema opisu istraživača, znao izgledati uredno izvana, ali je u Excel modelima često koristio hardkodirane vrijednosti. Jednostavno rečeno, broj je upisan kao fiksna cifra umjesto da ga računa formula. U investicijskom bankarstvu to je problem jer se scenarij ne može promijeniti. Ako promijeniš cijenu kupnje, model bi se morao automatski preračunati.
Ako broj samo stoji zalijepljen u ćeliji, cijeli model glumi pouzdanost. BankerToolBench mjeri i način na koji agenti koriste alate. Jedan zadatak može pokrenuti do 539 poziva jezičnom modelu, a 97% tih poziva vezano je uz alate ili izvršavanje koda. Drugim riječima, ovo nije samo pitanje pametnog teksta. AI mora otvarati podatkovne sobe, tražiti tržišne podatke, čitati SEC dokumente, raditi s datotekama i vratiti rezultat koji prolazi provjeru.
Što je lanac duži, to je više mjesta na kojima se mala greška pretvori u veliku štetu. Istraživači navode četiri česte klase pogrešaka za GPT-5.4. Najveći dio, 41%, odnosi se na greške u kodu i formulama. Još 27% otpada na poslovnu logiku, primjerice kada se sinergije troškova dodaju na prihod umjesto na trošak. Kod 18% slučajeva puknu upiti prema podacima, a kod 13% model izmisli brojeve koji nedostaju i predstavi ih kao pronađene.
To je najopasnija vrsta pogreške: ne izgleda kao praznina, nego kao sigurna tvrdnja. Benchmark zato ne govori da je AI beskoristan u bankarstvu. Više od polovice bankara reklo je da bi AI izlaz koristilo kao početni materijal. To je razuman prag. Model može skicirati strukturu, skupiti početne elemente i ubrzati rani nacrt. Ali nacrt nije isporuka. U financijama je razlika između ta dva pojma ponekad razlika između uštede vremena i profesionalne katastrofe.
Još je zanimljivije da se BankerToolBench može koristiti i za trening. Autori navode da su metode Dr. GRPO i DPO kod Qwen modela donijele pet do trinaest puta bolje rezultate, ali s vrlo niske početne razine. To je korisna poruka: benchmark nije samo optužnica protiv današnjih modela, nego i karta gdje ih treba popravljati. Za sada je zaključak prizemljen. AI agenti mogu ući u bankarski rad kao asistenti za nacrt, ali klijentsku isporuku još moraju zaustaviti ljudi koji razumiju formule, izvore i odgovornost.

