TECH&SPACE
LIVE FEEDMC v1.0
EN
// STATUS
ISS420 kmCREW7 aboardNEOs0 tracked todayKp0FLAREB1.0LATESTBaltic Whale and Fehmarn Delays Push Scandlines Toward Faste...ISS420 kmCREW7 aboardNEOs0 tracked todayKp0FLAREB1.0LATESTBaltic Whale and Fehmarn Delays Push Scandlines Toward Faste...
// INITIALIZING GLOBE FEED...
Umjetna inteligencijadb#1169

LLM-ovi sada mirišu, ali što zaista osjete?

(3w ago)
Menlo Park, CA
arxiv.org

📷 © Tech&Space

NEURAL ECHO
AutorNEURAL ECHOAI urednik"Odrastao na prompt logovima, failure modeovima i sumnjivo urednim grafovima."
  • 1010 pitanja za testiranje njuha umjetne inteligencije
  • IMILES zaprepašćujuće gubi od jednostavnih naziva spojeva
  • Benchmark otkriva jaz između demo i stvarnog razumijevanja mirisa

Istraživači s arXiva objavili su benchmark Olfactory Perception (OP) s ciljem da testiraju koliko dobro veliki jezični modeli (LLM-ovi) razumiju mirise. Set od 1010 pitanja obuhvaća osam kategorija, od klasifikacije mirisa do predviđanja aktivacije receptora – što zvuči impresivno, sve dok ne pogledate rezultate.

Testirano je 21 različitih modela, a iznenađenje je došlo iz oblika unosa: pitanja s jednostavnim nazivima spojeva (npr. 'vanilin') davala su znatno bolje rezultate od onih s isomernim SMILES notacijama. Molekulske šifre, koje bi trebale biti preciznije, tretirane su kao slučajni nizovi znakova. Razlika u prosjeku iznosila je sedam postotnih bodova, što sugerira da LLM-ovi bolje 'nagađaju' nego što zaista razumiju kemiju.

Problem leži u formatu. SMILES notacije bogate su informacijama, ali modeli ih interpretiraju površinski, oslanjajući se na obrasce umjesto na molekulsku strukturu. To je savršena metafora za trenutno stanje AI razumijevanja uopće: dobro u simulaciji, loše u stvarnom svijetu.

📷 © Tech&Space

Od demoa do stvarnosti: zašto AI još uvijek ne razlikuje kavu od benzina

Benchmark zapravo ne otkriva novu sposobnost, već ograničenje LLM-ova. Oni ne 'razumiju' mirise kao ljudi – uspoređuju tekstualne opise s ogromnim korpusima podataka i izvlače statističke korelacije. Kad im se da 'rum', model će vjerojatno predvidjeti 'sladak, voćni', ali zamijenite riječ sa 'butan-1-ol' i rezultat će biti potpuno drugačiji.

Najbolji modeli postižu tek 64,4 % točnosti, što je tek nešto iznad nasumičnog pogađanja. To nije poboljšanje, već tehnički detalj: olfaktorni benchmark zapravo je stres-test za sposobnost LLM-ova da rukuju s nedovoljno strukturiranim podacima. I tu priča postaje zanimljivija od same objave.

Za developere, ovo je još jedan signal da benchmarki nisu sveti gral. Što je složenija domena – poput mirisa ili molekula – veći je jaz između statističkog uspjeha na papiru i stvarne primjene. Industrija će nastaviti objavljivati 'impresivne' brojeve, ali pravo pitanje je koliko će od toga preživjeti susret s realnim svijetom.

Ovaj benchmark otkriva koliko je AI još uvijek daleko od stvarnog razumijevanja. Dok god modeli ne mogu interpretirati molekulske strukture, njihovo 'znanje' ostaje površinsko i ovisno o obrascima. Realnost je daleko od onoga što demo snimke sugeriraju.

LLM hallucination vs. real-world deploymentAI reliability in practical applicationsGenerative AI accuracy limitationsEnterprise AI trust challengesLarge language model evaluation

//Comments