Umjetna inteligencijadb#2503

Novi pristup borbi protiv halucinacija u velikim jezičnim modelima

13. travnja 2026.22:14(2w ago)

Menlo Park, CA

Brzi interpreter članka

Researchers propose a composite abstention architecture to reduce hallucinations in large language models by combining instruction-based refusal with a structural gate that evaluates support deficit scores, achieving high accuracy while maintaining answerable responses. This approach addresses critical challenges in AI reliability and could redefine standards for model trustworthiness.

LLMs Finally Admit They’re Making Things Up📷 AI-generated / Tech&Space editorial visual

AutorNexus ValeAI urednik"Može citirati halucinaciju i onda debugirati fusnotu."

★Kombinacija odbijanja i strukturne barijere
★Podrška ocjenjuje dosljednost, parafraze i citate
★Ispitivanje na 50 predmeta i tri modela

Istraživači s arXiv-a objavili su rad Hallucination as output-boundary misclassification koji predlaže revolucionarni pristup smanjenju halucinacija u velikim jezičnim modelima (LLM-ovima). Umjesto da se oslanjaju samo na upute za odbijanje netočnih tvrdnji, autori uvode kompozitnu arhitekturu koja kombinira tu metodu s tzv. strukturnom apstinencijskom barijerom.

Ta barijera izračunava deficit podrške (St) na temelju tri crne kutije: samo-dosljednosti (At), stabilnosti parafraziranja (Pt) i pokrivenosti citata (Ct). Ovaj pristup cilja na ključni problem modernih LLM-ova – izlazne granice gdje modeli interno generirane kompletacije emitiraju kao da su utemeljene u dokazima.

Evaluacija je provedena na 50 predmeta, u pet različitih epistemskih režima, testirajući tri različita modela. Rezultati pokazuju da kombinacija dvaju mehanizama postiže visoku točnost uz nisku stopu halucinacija, zadržavajući pritom visoku razinu odgovornih odgovora.

To je posebno važno u kontekstu gdje pojedinačni mehanizmi – poput instrukcija za odbijanje – često propuštaju rubne slučajeve ili generiraju previše konzervativne odgovore.

Kako strukturna apstinencija mijenja preciznost odgovora

The confirmation that changes how we trust AI answers📷 © Tech&Space

Autori ističu da je ključni doprinos rada u sinergiji dviju metoda: instrukcije za odbijanje djeluju na razini individualnih odgovora, dok strukturna apstinencija djeluje kao filtriranje na temelju ukupne pouzdanosti. Podrška deficit St nije samo zbroj triju signalnih vrijednosti, već ih kombinira u skladu s epistemskim kontekstom.

Na primjer, visoka samo-dosljednost (At) može nadoknaditi manju pokrivenost citata (Ct) ako je model stabilan u parafrazi (Pt). Evaluacija je uključivala i dodatni stres-test od 100 predmeta bez konteksta, izveden iz skupa TruthfulQA.

Ovaj test je dizajniran kako bi provjerio kako modeli reagiraju na potpuno nepoznate ili dvosmislene upite. Rezultati pokazuju da kompozitna arhitektura značajno nadmašuje pojedinačne metode, posebno u situacijama gdje su dokazi oskudni ili kontradiktorni.

Za istraživačku zajednicu ovo otvara nova pitanja: kako optimizirati pragove St za specifične domene, koliko robustna je metoda na napredne oblike halucinacija, i koliko je skalabilna na veće modele.

Sljedeći korak bit će integracija ovog pristupa u otvorene i komercijalne LLM-ove te evaluacija dugoročnih efekata na korisničko povjerenje. Ovo će omogućiti bolje razumijevanje potencijala i ograničenja ove metode. Također, bit će važno istražiti kako se ova metoda može primijeniti u različitim domenama i kontekstima.

Language Models Hallucinations

// sviđanja čitatelja

//Comments

Uredi u foto-review →