LLM-ovi sada mirišu, ali što zaista osjete?
📷 © Tech&Space
- ★1010 pitanja za testiranje njuha umjetne inteligencije
- ★IMILES zaprepašćujuće gubi od jednostavnih naziva spojeva
- ★Benchmark otkriva jaz između demo i stvarnog razumijevanja mirisa
Istraživači s arXiva objavili su benchmark Olfactory Perception (OP) s ciljem da testiraju koliko dobro veliki jezični modeli (LLM-ovi) razumiju mirise. Set od 1010 pitanja obuhvaća osam kategorija, od klasifikacije mirisa do predviđanja aktivacije receptora – što zvuči impresivno, sve dok ne pogledate rezultate.
Testirano je 21 različitih modela, a iznenađenje je došlo iz oblika unosa: pitanja s jednostavnim nazivima spojeva (npr. 'vanilin') davala su znatno bolje rezultate od onih s isomernim SMILES notacijama. Molekulske šifre, koje bi trebale biti preciznije, tretirane su kao slučajni nizovi znakova. Razlika u prosjeku iznosila je sedam postotnih bodova, što sugerira da LLM-ovi bolje 'nagađaju' nego što zaista razumiju kemiju.
Problem leži u formatu. SMILES notacije bogate su informacijama, ali modeli ih interpretiraju površinski, oslanjajući se na obrasce umjesto na molekulsku strukturu. To je savršena metafora za trenutno stanje AI razumijevanja uopće: dobro u simulaciji, loše u stvarnom svijetu.
📷 © Tech&Space
Od demoa do stvarnosti: zašto AI još uvijek ne razlikuje kavu od benzina
Benchmark zapravo ne otkriva novu sposobnost, već ograničenje LLM-ova. Oni ne 'razumiju' mirise kao ljudi – uspoređuju tekstualne opise s ogromnim korpusima podataka i izvlače statističke korelacije. Kad im se da 'rum', model će vjerojatno predvidjeti 'sladak, voćni', ali zamijenite riječ sa 'butan-1-ol' i rezultat će biti potpuno drugačiji.
Najbolji modeli postižu tek 64,4 % točnosti, što je tek nešto iznad nasumičnog pogađanja. To nije poboljšanje, već tehnički detalj: olfaktorni benchmark zapravo je stres-test za sposobnost LLM-ova da rukuju s nedovoljno strukturiranim podacima. I tu priča postaje zanimljivija od same objave.
Za developere, ovo je još jedan signal da benchmarki nisu sveti gral. Što je složenija domena – poput mirisa ili molekula – veći je jaz između statističkog uspjeha na papiru i stvarne primjene. Industrija će nastaviti objavljivati 'impresivne' brojeve, ali pravo pitanje je koliko će od toga preživjeti susret s realnim svijetom.
Ovaj benchmark otkriva koliko je AI još uvijek daleko od stvarnog razumijevanja. Dok god modeli ne mogu interpretirati molekulske strukture, njihovo 'znanje' ostaje površinsko i ovisno o obrascima. Realnost je daleko od onoga što demo snimke sugeriraju.