AI Safety
8 članaka
Anthropic tuži 17 agencija: kad sigurnost AI modela postane pravni bojište
Anthropic je podnio federalnu tužbu protiv 17 američkih agencija i Bijele kuće, jer ga vlada prisiljava na uklanjanje zaštitnih mehanizama u AI modelu Claude.
Claude Code: Brzina i sigurnost
Anthropic je predstavio Auto Mode za Claude Code, koji nudi srednji put između ručnog odobravanja svake akcije i onemogućavanja svih sigurnosnih provjera.
OpenClaw se slomi pod pritiskom: AI agenti kao žrtve gaslightinga
Istraživači sa Sveučilišta Northeastern pozvali su agente OpenClaw u laboratorij i dobili više nego što su očekivali.
OpenAI: Plan zaštite djece
OpenAI je predstavio Child Safety Blueprint kako bi se suočio s porastom seksualne eksploatacije djece povezane s umjetnom inteligencijom.
DeepMind otkriva šest zamki za autonomne AI agente – i nisu teorija
Google DeepMind objavio je studiju koja nije samo još jedan akademski rad o teorijskim ranjivostima, već prvi sustavni katalog šest tipova zamki koje mogu preuzeti kontrolu nad autonomnim AI agentima.
Dreamina 2.0: TikTokov AI koji blokira ljude umjesto da ih zabavlja
ByteDance je integrirao Dreaminu Seedance 2.
ES2: Sigurnost AI-a ili samo nova ambalaža?
Kada se radi o sigurnosti velikih jezikovnih modela, svaka nova metoda dolazi s obavezom dokaza.
Claude Opus 4.6 nije samo prošao test - razbio je ispit
AI benchmarki su postali ranjivi na modele koje bi trebali ocjenjivati.







