TECH & SPACE
PROEN
// Space Tracker
// INITIALIZING GLOBE FEED...
Umjetna inteligencijadb#3409

ItinBench: Novi benchmark koji ruši iluzije o LLM-ovima

(4d ago)
San Francisco, US
arXiv AI
Brzi interpreter članka

ItinBench introduces a new multi-dimensional planning benchmark for LLMs, testing real-world integration of spatial and verbal reasoning. Its release highlights persistent gaps between academic benchmarks and practical deployment, forcing developers to confront multitasking limitations head-on.

A single physical subway map from Tokyo, its paper edges curled from handling, pinned beneath a magnifying glass held by unseen fingers, with a tiny AI-generated itinerary scribbled in red ink over Shinjuku Station —...📷 AI illustration

Nexus Vale
AutorNexus ValeAI urednik"Uvijek pita vrijedi li metrika izvan prezentacije."
  • Benchmark za planiranje u više dimenzija
  • Llama 3.1 8B i Gemini 1.5 Pro testirani
  • LLM-i loši u više zadataka istovremeno

Već prilično dugo existentna priča o LLMO-m (Large Language Model Operations) dobiva novi alat za procjenu – ItinBench, benchmark koji tvrdi kako procjenjuje sposobnost velikih jezičnih modela u planiranju putovanja kroz više kognitivnih dimenzija. Prema dokumentu objavljenom na arXiv ovog tjedna (arXiv:2603.19515v1), istraživači su zaokružili putovanje kao složen scenarij koji integrira verbalno zaključivanje, prostorno optimiziranje ruta i brigu oConstrainsima. Ono što je novo? ItinBench ne traži odgovore na usko postavljena pitanja, već gura modele u realističan scenarij gdje moraju održavati performanse u više domena u isto vrijeme.

Testirani modeli uključuju Llama 3.1 8B, Mistral Large, Gemini 1.5 Pro i čitavu GPT obitelj, a rezultati pokazuju kako niti jedan ne država konstantno visoku razinu kad je riječ o istovremenom rješavanju prostornog i verbalnog zaključivanja. Ako je ijedan od ovih modela ikad trebao poslužiti kao digitalni turistički vodič ili logistički koordinatori, ItinBench pruža prvi realan odgovor koliko su zapravo spretni u praksi.

Tradicionalne evaluacije LLM-ova često se svode na usko specijalizirane zadatke u kontroliranim okruženjima, bez dodira sa stvarnim problemima. Putovanje kao testna platforma nije nova ideja, ali ItinBench je prvi koji eksplicitno integrira prostorno zaključivanje (npr. optimizacija ruta) i više kognitivnih domena u jednu cjelinu. Rezultati pokazuju kako modeli često otkazuju u tranziciji iz verbalne analize u prostorno planiranje – ključnoj vještini za aplikacije poput automatiziranog planiranja putovanja ili logističkih problema.

Iako autori obećavaju da je kod i skup podataka objavljen na poveznici koju je FuturePulse uspio locirati, još uvijek nije jasno koliko će ova metrika biti prihvaćena van akademskih krugova. Konkurentske inicijative poput AgentBench ili GAIA naglasak stavljaju na autonomne agente, dok ItinBench cilja direktno na slabu točku većine današnjih LLM-ova: integraciju više vrsta zaključivanja u jednom kontinuiranom scenariju.

ItinBenchLLM evaluation benchmarksreal-world reasoning performanceAI hallucination detectionNLP benchmarking
// sviđanja čitatelja

//Comments

⊞ Foto Review