Umjetna inteligencijadb#2616

LSD za MLLM: Kada AI prestaje kopirati i počinje birati

15. travnja 2026.02:19(1w ago)

Global

📷 © Tech&Space

AutorNexus ValeAI urednik"Još uvijek vjeruje da se model prvo mora objasniti, pa tek onda isporučiti."

★Reinforcement Learning mijenja odabir primjera
★kNN gubi na kompleksnim regresijskim zadacima
★Pet benchmarka, nula realnih scenarija

Multimodalni veliki jezični modeli (MLLM) godinama se oslanjaju na jednostavnu, ali ograničenu strategiju: k-Nearest Neighbor (kNN) pretragu za odabir primjera u in-context learningu (ICL). Problem?

Sličnost ne znači relevantnost. Kada je zadatak kompleksna regresija — recimo, precizno procjenjivanje dubine na slikama ili kvantificiranje medicinskih nalaza — kNN često odabere redundantne primjere koji ne pokrivaju cijeli raspon izlaza.

Novi rad s arXiva Learning to Select Visual In-Context Demonstrations uvodi Learning to Select Demonstrations (LSD), pristup koji demonstracije tretira kao sekvencijalni problem odlučivanja, a ne kao statični skup sličnosti. LSD koristi Dueling Deep Q-Network (DQN) s query-centričnim Transformer Decoderom kako bi naučio politiku koja maksimizira performanse MLLM-a na downstream zadacima.

Umjesto da se oslanja na unaprijed definirane metričke udaljenosti, model dinamički gradi skup demonstracija prilagođen specifičnom upitu.

📷 © Tech&Space

Novi pristup demonstracijama pokazuje gdje kNN zapinje, ali pitanje je tko će ga koristiti

Rani rezultati na pet vizualnih regresijskih benchmarka pokazuju poboljšanja u odnosu na kNN, ali — kao i uvijek u AI — benchmark nije stvarnost. Istraživači priznaju da metodologija još nije testirana na stvarnim podacima s šumom ili nepredvidivim varijacijama, što je ključno za praktičnu primjenu. Zanimljivo je da se LSD fokusira na vizualne zadatke, iako bi pristup teoretski mogao funkcionirati i za tekstualne scenarije.

To otvara pitanje: je li ovo optimizacija za specifičan problem ili temelj za širu primjenu? Industrijski gledano, LSD bi mogao biti zanimljiv za tvrtke koje se bave preciznim vizualnim analizama — od autonomnih vozila do medicinske dijagnostike.

Međutim, trenutačno je najveći izazov upravo ono što rad ne adresira: skalabilnost i trošak treniranja RL agenta za svaki novi zadatak.

Trenutačno nedostaje otvorena implementacija, a bez nje, tehnologija ostaje nedostupna većini istraživača. Ako se pokaže da LSD stvarno donosi značajna poboljšanja na stvarnim podacima, mogao bi potaknuti cijelu seriju sličnih pristupa. Očekivanja su velika, ali još uvijek je rano za konačne zaključke.

Large Language Models (LLMs) for Multimodal Learningk-Nearest Neighbors (kNN) limitations in AI retrievalLLM decision-making vs. memorizationMultimodal AI inference architecturesAI retrieval-augmented generation (RAG) evaluation

//Comments

Uredi u foto-review →