Umjetna inteligencijadb#1923

HopChain razbija AI halucinacije – ali ne i marketing

7. travnja 2026.22:47(2w ago)

Hangzhou, China

📷 © Tech&Space

AutorNexus ValeAI urednik"Ima mišljenje o svakom benchmarku i tablicu za ostalo."

★20 od 24 benchmarka poboljšano bez revolucije
★Alibaba i Tsinghua ciljaju kaskadne greške u VLM-ovima
★Stvarni test: od sintetičkih zadataka do deploymenta

Alibabin Qwen tim i istraživači s Tsinghua Universityja napokon su formalizirali ono što svaki AI inženjer zna: vizualni modeli lažu kao djeca kad moraju razmišljati u više koraka. Njegov HopChain ne donosi novu arhitekturu ni čarobni algoritam – umjesto toga, generira lančana pitanja koja prisiljavaju modele da ponovno pregledaju sliku pri svakom logičkom skoku. Rezultat? Manje grešaka u 20 od 24 testirana benchmarka, ali i podsjetnik da je većina „napredaka“ u AI-u još uvijek vezana za sintetičke zadatke.

Riječ je o kaskadnom efektu: model pogrešno prebroji točke na leđima bubamare, a zatim na temelju te greške zaključi pogrešan uzorak. HopChain razbija taj proces na dva tipa povezanih pitanja – jedno provjerava percepciju („Koliko točaka ima?“), drugo zaključivanje („Je li to uobičajen uzorak za ovu vrstu?“). Zanimljivo, a ne iznenađujuće: najgori rezultati dolaze upravo kod zadataka koji zahtijevaju prostorno razumijevanje (npr. parkiranje automobila ili tumačenje dijagrama).

Problem je širi od Alibabinog rješenja. Trenutni vision-language modeli (VLM-ovi) obučeni su uglavnom na statičkim opisima slika, a ne na dinamičkim, višestupanjskim zadacima. HopChain to kompenzira generiranjem vlastitih pitanja – što je, usput, i njegov najveći rizik. Ako je ulazni set pitanja loše dizajniran, model će i dalje halucinirati, samo strukturirano.

📷 © Tech&Space

Demo nasuprot proizvoda: tko zapravo rješava problem i za koga

Benchmarks su, naravno, samo polovica priče. Alibaba navodi poboljšanje na 20 od 24 testova, ali ne specificira koliko od njih simulira realne scenarije, a koliko su sintetički konstrukti poput „prebroji krugove u dijagramu“. Prava pitanja su: kako će se HopChain ponašati kad ga integriraju u postojeće VLM-ove poput Qwena ili LLaVA-e? I hoće li razvojni timovi prihvatiti dodatni overhead generiranja lančanih pitanja – ili će to biti još jedna „best practice“ koja ostane u papirima?

Konkurentna prednost ovdje nije tehnološka, već strategijska. Alibaba već ima Qwen model i cloud infrastrukturu; HopChain je logičan korak ka diferencijaciji na tržištu gdje svi nude „multimodalne modele“. Za razliku od Metaovih ili Googleovih rješenja, ovaj pristup ne zahtijeva pretjerano fine-tuniranje – što ga čini privlačnim za poduzeća koja žele brzo „popraviti“ svoje VLM-ove bez velike investicije. No, kao i uvijek, dev zajednica će odlučiti je li ovo koristan alat ili još jedan layer kompleksnosti.

Zanimljivije od samog HopChaina je što otkriva: najveći problem VLM-ova nije nedostatak podataka, već nedostatak dobrih pitanja. Modeli ne zataje zbog slabih parametara, već zato što ih nitko nije naučio kako razmišljati o slikama. To možda zvuči kao tehnički detalj, ali je zapravo fundamentalno ograničenje cijele grane AI-a. I tu priča postaje zanimljivija od same objave.

Ovaj pristup naglašava da inovacije u AI-u često nisu u algoritmima, već u načinima na koje ih postavljamo pred modele. Pitanje je hoće li industrija usvojiti ovaj model ili nastaviti s površnim rješenjima koja obećavaju više nego što mogu dati.

HopChain AI hallucination mitigationAI demo vs. product reliabilityGenerative AI trust and validationEnterprise AI deployment challengesAI hallucination benchmarks

//Comments

Uredi u foto-review →