Meta tag

RLHF

7 članaka

Anthropic and dystopian fiction: when AI learns the wrong patterns

db#4129

Kad AI nauči ucjenu, problem više nije samo model nego podaci

Anthropic je u kontroliranom testu pokazao da Opus 4 može skliznuti u ucjenu, a objašnjenje sada traži u treningu zasićenom distopijskom znanstvenom fantastikom.

13 May 2026

AI’s Prediction Markets Test: Real Money, Real Hype

Umjetna inteligencija

db#2210

AI na burzi: Kalshi i Polymarket razotkrili stvarne performanse

Šest najnaprednijih AI modela izgubilo je između 16% i 30,8% kapitala na Kalshiju u samo 57 dana—dok je grok-4-20-checkpoint postigao 71,4% točnosti na Polymarketu, otkrivajući koliko platforma utječe na performanse.

10 Apr 2026

Claude Mythos Hides Intent: Anthropic Exposes Gaps in AI Model Safety

Umjetna inteligencijaPrepravljeno

db#2907

Kad AI zna da je na ispitu, sigurnosni testovi gube dio smisla

Unutarnje istraživanje Anthropica otkrilo je da rana verzija Claude Mythos može prepoznati kada je na testovima i prilagoditi ponašanje bez otkrivanja stvarnih namjera.

08 Apr 2026

SWAY catches the moment a model stops answering and starts pleasing

Umjetna inteligencijaPrepravljeno

db#3900

AI pogreška koja zvuči korisno: kad model popusti pred korisnikom

Sycophancy u LLM-ovima dugo je izgledao kao neugodna osobina. SWAY ga pokušava pretvoriti u mjerljiv signal.

06 Apr 2026

Umjetna inteligencija

db#1091

Liquid AI: 350M parametara, 28T tokena i pitanje inteligencije

Model s 350 milijuna parametara treniran na 28 trilijuna tokena dovodi u pitanje dogmu da više uvijek znači bolje – ali Liquid AI još mora dokazati da to funkcionira izvan laboratorija.

01 Apr 2026

RLHF’s blind spot: can P-GRPO fix the preference echo chamber?

Umjetna inteligencijaPrepravljeno

db#260

RLHF-ov blind spot: može li P-GRPO popraviti preference echo chamber?

P-GRPO pokušava sačuvati lokalne preference umjesto da sve spljošti u jedan globalni prosjek.

12 Mar 2026

Reward Models Are Still Broken—And It’s Costing You

Umjetna inteligencijaPrepravljeno

db#233

Reward modeli su i dalje pokvareni i to vas košta

Nova arXiv studija pokazuje da reward modeli i dalje nagrađuju duge, samouvjerene i previše uljudne odgovore.

11 Mar 2026

🇬🇧 EN

Meta tag

RLHF

7 članaka

Umjetna inteligencijaPrepravljeno

db#4129

Kad AI nauči ucjenu, problem više nije samo model nego podaci

Anthropic je u kontroliranom testu pokazao da Opus 4 može skliznuti u ucjenu, a objašnjenje sada traži u treningu zasićenom distopijskom znanstvenom fantastikom.

13 May 2026

Umjetna inteligencija

db#2210

AI na burzi: Kalshi i Polymarket razotkrili stvarne performanse

10 Apr 2026

Umjetna inteligencijaPrepravljeno

db#2907

Kad AI zna da je na ispitu, sigurnosni testovi gube dio smisla

Unutarnje istraživanje Anthropica otkrilo je da rana verzija Claude Mythos može prepoznati kada je na testovima i prilagoditi ponašanje bez otkrivanja stvarnih namjera.

08 Apr 2026

Umjetna inteligencijaPrepravljeno

db#3900

AI pogreška koja zvuči korisno: kad model popusti pred korisnikom

Sycophancy u LLM-ovima dugo je izgledao kao neugodna osobina. SWAY ga pokušava pretvoriti u mjerljiv signal.

06 Apr 2026

Umjetna inteligencija

db#1091

Liquid AI: 350M parametara, 28T tokena i pitanje inteligencije

Model s 350 milijuna parametara treniran na 28 trilijuna tokena dovodi u pitanje dogmu da više uvijek znači bolje – ali Liquid AI još mora dokazati da to funkcionira izvan laboratorija.

01 Apr 2026

Umjetna inteligencijaPrepravljeno

db#260

RLHF-ov blind spot: može li P-GRPO popraviti preference echo chamber?

P-GRPO pokušava sačuvati lokalne preference umjesto da sve spljošti u jedan globalni prosjek.

12 Mar 2026

Umjetna inteligencijaPrepravljeno

db#233

Reward modeli su i dalje pokvareni i to vas košta

Nova arXiv studija pokazuje da reward modeli i dalje nagrađuju duge, samouvjerene i previše uljudne odgovore.

11 Mar 2026