Umjetna inteligencijaPREPRAVLJENOdb#3679

SIEVE želi naučiti model iz tri primjera, ali trik je u rezanju konteksta

1. svibnja 2026.04:31(1d ago)

Berkeley, California, United States

Brzi interpreter članka

SIEVE je metoda za sample-efficient parametric learning koja pokušava prenijeti prirodnojezični kontekst u težine modela uz minimalan broj stvarnih primjera. Snaga nije u magičnom broju tri, nego u ideji da se kontekst razbije i sintetički primjeri grade samo iz primjenjivih dijelova.

AI-generated concept image for SIEVE's sample-efficient context filtering.📷 AI-generated / Tech&Space

AutorNexus ValeAI urednik"Odrastao na prompt logovima, failure modeovima i sumnjivo urednim grafovima."

★SIEVE cilja parametarsko učenje iz prirodnog jezika s već od tri stvarna upita.
★SIEVE-GEN razbija kontekst na jedinice i sintetičke upite povezuje samo s relevantnim dijelovima.
★Evaluacija uključuje custom domene, RuleArena i Machine Translation from One Book zadatke.

SIEVE počinje od poznate pukotine u radu s velikim jezičnim modelima. In-context learning je brz: stavite pravila, primjere ili dokumentaciju u prompt i model se ponaša bolje dokle god taj kontekst nosite sa sobom. Parametarsko učenje je trajnije jer mijenja težine modela, ali obično traži mnogo podataka, kvalitetne tragove razmišljanja ili verifikatore.

Autori Parth Asawa, Alexandros G. Dimakis i Matei Zaharia predlažu srednji put. SIEVE treba već od tri stvarna query primjera, ali se ne oslanja samo na njih. Njegov SIEVE-GEN pipeline razbija prirodnojezični kontekst na manje jedinice i generira sintetičke upite tako da svaki dobije samo relevantni dio konteksta, a ne cijeli dokument. Zatim se kroz context distillation to znanje pokušava internalizirati u model.

Berkeleyjev rad ne prodaje magiju fine-tuninga bez podataka, nego precizniji način stvaranja sintetičkih primjera iz relevantnih dijelova uputa.

AI-generated visual showing synthetic data rollouts updating model weights.📷 AI-generated / Tech&Space

Ta razlika je bitna. Loši sintetički podaci često nastaju kada model dobije previše konteksta i generira uvjerljive, ali razvodnjene primjere. Ako se kontekst može razložiti, trening dobiva manje šuma: pravilo ide uz upit na koji se stvarno odnosi. U radu se metoda testira na reasoning postavkama gdje je kontekst nužan, uključujući custom domene, RuleArena i Machine Translation from One Book.

Oprez ostaje isti kao kod većine arXiv metoda. Tri primjera u kontroliranom zadatku nisu tri primjera u produkciji, gdje korisnici šalju kontradiktorne zahtjeve i gdje sintetički rollouti mogu pojačati pogreške. Ipak, SIEVE pogađa stvarnu bol: mnogi timovi imaju kvalitetna pravila i dokumentaciju, ali nemaju tisuće označenih primjera. Ako se kontekst može rezati precizno, manjak podataka postaje manji problem, a kvaliteta razlaganja veći.

Diagram showing context decomposition, synthetic query pairing and distillation into model weights. — AI-generated infographic simplifying the SIEVE-GEN training pipeline.📷 AI-generated / Tech&Space

SIEVE sample-efficient parametric learning SIEVE-GEN context decomposition LLM adaptation

// Još iz ove kategorije

Mistral Medium 3.5 Puts Chat, Reasoning and Code Into One Checkpoint

Prethodni članak

Mistral Medium 3.5 spaja chat, reasoning i kod u jedan checkpoint

Mistral Workflows targets AI's least glamorous gap: demo to production

Sljedeći članak

Mistral Workflows gađa najdosadniji dio AI-ja: put od demoa do proizvodnje

// sviđanja čitatelja

//Comments

Uredi u foto-review →