Tag: AI Benchmarking | TECH & SPACE

OpenAI tunes GPT-5.5 Instant and retires o3 and GPT-4.5

db#5434

OpenAI čisti ChatGPT i seli korisničke navike prema GPT-5.5 Instantu

OpenAI ne mijenja samo model u izborniku, nego način na koji ChatGPT korisniku servira pisanje, kodiranje i prijelaz sa starijih generacija.

29 May 2026

OpenAI Shows How Loblaw Uses Codex and ChatGPT Images

Umjetna inteligencijaVIDEOPrepravljeno

db#5422

Loblaw pokazuje zašto OpenAI sada prodaje radni tok, a ne samo model

OpenAI je objavio video u kojem Lauren Steinberg iz Loblawa tvrdi da Codex i ChatGPT Images 2.0 mijenjaju tempo rada digitalnih timova u velikoj maloprodaji.

29 May 2026

NVIDIA brings local CUDA assistance into VS Code

Umjetna inteligencijaVIDEOPrepravljeno

db#5421

Nvidia želi da pomoć za kodiranje ostane uz radni kod, ne u oblaku

NVIDIA kroz Nsight Copilot za VS Code pokazuje da AI pomoć za CUDA razvoj želi izvući iz generičkog chata i spustiti u lokalni, NVIDIA-specifični radni tok.

29 May 2026

AI agents are built by the code around the model

Umjetna inteligencijaPrepravljeno

db#5393

DeepSeek gradi Harness tim jer se AI agenti više ne dobivaju samo većim modelom

Ako je jezični model motor AI agenta, novi pregledni rad tvrdi da je softverski harness mjenjač, kočnica i kontrolna ploča bez kojih autonomija ostaje demonstracija.

29 May 2026

Waterloo tests AI prototypes for classrooms and workplaces

Umjetna inteligencijaPrepravljeno

db#5408

Waterloo pokazuje gdje AI ima smisla: mali tutor, jasan zadatak, stvarna vježba

Studentski AI prototipovi sa Sveučilišta Waterloo zanimljivi su upravo zato što ne pokušavaju glumiti revoluciju, nego rješavati uske, vidljive probleme u učenju i radu.

29 May 2026

OpenAI expands GPT-Rosalind through Rosalind Biodefense

Umjetna inteligencijaPrepravljeno

db#5372

OpenAI vodi GPT-Rosalind u biodefense, ali ključni test je povjerenje

OpenAI je predstavio Rosalind Biodefense, program koji GPT-Rosalind iz laboratorijske ambicije premješta u osjetljiv javnozdravstveni operativni prostor.

29 May 2026

Claude Opus 4.8 and the Value of a Modest AI Release

Umjetna inteligencijaPrepravljeno

db#5298

Claude Opus 4.8 prodaje rjeđu AI vrlinu: priznati kada nije siguran

Claude Opus 4.8 zanimljiv je upravo zato što ga Anthropic, prema dostupnom kontekstu, ne pokušava pretvoriti u još jedan spektakl.

29 May 2026

Anthropic nears a trillion-dollar valuation after $65 billion Series H

Umjetna inteligencijaPrepravljeno

db#5271

Anthropic više ne prodaje samo Claude, nego AI infrastrukturu za velike kupce

Anthropic je iz još jedne AI runde izašao s brojkama koje više ne opisuju startup, nego infrastrukturnu silu na pragu bilijunske valuacije.

28 May 2026

OpenAI Shows Updated Agents SDK for Long-Running Agents

Umjetna inteligencijaVIDEOPrepravljeno

db#5263

OpenAI gura agente iz chata u radni prostor, gdje svaka radnja treba trag

OpenAI je u novoj Build Hour epizodi Agents SDK pozicionirao kao praktični sloj za agente koji ne završavaju na jednom promptu, nego rade kroz datoteke, naredbe i memoriju.

28 May 2026

Microsoft 365 Copilot Gets a Faster, Cleaner Redesign

Umjetna inteligencijaPrepravljeno

db#5294

Microsoft 365 Copilot želi prestati izgledati kao demo i ponašati se kao uredski alat

Microsoft 365 Copilot ulazi u redizajniranu fazu: manje vizualne gužve, brže učitavanje i odgovori koji bi trebali biti lakši za skeniranje.

28 May 2026

Anthropic Raises $65B and Nears a $1T Valuation

Umjetna inteligencijaPrepravljeno

db#5242

Anthropic s Claudeom prodaje javnom tržištu ideju da je AI infrastruktura

Anthropic je zatvorio privatnu rundu koja više nalikuje infrastrukturnom referendumu o generativnoj umjetnoj inteligenciji nego običnom startup financiranju.

28 May 2026

Leaked report pushes AI data centers into security politics

Umjetna inteligencijaPrepravljeno

db#5302

Tom's Hardware: AI podatkovni centri ulaze u spor oko prosvjeda i nadzora

AI podatkovni centri više nisu samo pitanje čipova, struje i vode, nego sve otvorenije pitanje policijskog okvira oko javnog protivljenja.

28 May 2026

RSI is becoming the new AGI label, but the definition still slips away

Umjetna inteligencijaPrepravljeno

db#5217

TechCrunch: samopoboljšavajući AI traži dokaz prije nove velike utrke

Rekurzivno samopoboljšanje zvuči kao precizniji put prema naprednoj umjetnoj inteligenciji, ali zasad nasljeđuje isti problem kao AGI: svi ga žele, malo tko ga može uredno definirati.

28 May 2026

General Compute Hunts for the Next AI Chip Breakout

Umjetna inteligencijaPrepravljeno

db#5214

General Compute traži u SambaNovi izlaz iz uskog grla AI čipova

General Computeova oklada na SambaNovu nije samo još jedna investicijska fusnota, nego signal da se tržište AI računalne infrastrukture ponovno otvara izvan najočitijih pobjednika.

28 May 2026

NVIDIA Dynamo Snapshot Cuts AI Inference Cold Starts on Kubernetes

Umjetna inteligencijaPrepravljeno

db#5128

Nvidia Dynamo Snapshot cilja čekanje koje poskupljuje AI inferenciju

NVIDIA je otvorila vrlo konkretan problem moderne AI infrastrukture: replike za inferenciju mogu se skalirati brzo na papiru, ali korisnik i dalje čeka dok se model stvarno podigne.

28 May 2026

NVIDIA Blackwell Sets STAC-AI Record for Financial LLM Inference

Umjetna inteligencijaPrepravljeno

db#5100

Blackwell cilja financije u kojima spor jezični model ne vrijedi dovoljno

NVIDIA tvrdi da je Blackwell postavio novi STAC-AI rekord za LLM inferenciju u financijama, što je važan signal za banke, fondove i trading infrastrukturu koja sve više ovisi o jezičnim modelima.

27 May 2026

Microsoft’s MAI-Image-2.5 Catches Google’s Nano Banana 2

Umjetna inteligencijaPrepravljeno

db#5082

Microsoft se približio Googleu u AI slikama koje moraju čitati tekst

Microsoftov MAI-Image-2.5 više nije eksperiment koji samo popunjava portfelj: prema Arena poretku, sada stoji uz Googleov Nano Banana 2 i dovoljno blizu vrha da ga treba shvatiti ozbiljno.

27 May 2026

Umjetna inteligencijaPrepravljeno

db#5117

EU AI Act pretvara velike chatbotove iz demo alata u dokazni problem

Ako se vodeći AI botovi spotaknu već na testovima usklađenosti, europska regulacija prestaje biti apstraktna prijetnja i postaje operativni problem.

27 May 2026

dlt and the Real Problem of AI Data Pipelines

Umjetna inteligencijaVIDEOPrepravljeno

db#5066

dlt i stvarni problem AI podatkovnih cjevovoda

dlt nije još jedan sjajni AI alat, nego otvoreni Python SDK za dosadniji, ali presudan sloj: pouzdano premještanje podataka u produkciji.

27 May 2026

Trajectory Wants to Close AI’s Feedback Loop

Umjetna inteligencijaPrepravljeno

db#5067

Trajectory cilja slabost AI proizvoda: što se dogodi nakon sjajne demonstracije

Trajectory napada neugodan problem generativnog AI-ja: proizvodi nakon lansiranja često izgledaju živo u sučelju, ali u učenju iz stvarne upotrebe ostaju spori i kruti.

27 May 2026

Codex as a Tax Agent That Learns From Its Own Work

Umjetna inteligencijaPrepravljeno

db#5081

OpenAI testira Codex ondje gdje AI greške postaju porezni problem

OpenAI je s Thriveom i Creteom predstavio primjer Codex agenta za porezne prijave, ali najvažniji detalj nije automatizacija nego tvrdnja da se sustav može sustavno poboljšavati iz vlastitog rada.

27 May 2026

Nvidia Vera Linux Benchmarks Put EPYC and Xeon on Notice

Umjetna inteligencijaPrepravljeno

db#5060

Nvidia Vera više ne izgleda kao slaba karika AI servera

Nvidijin Vera CPU u prvim Linux benchmarkovima ne ruši EPYC i Xeon preko noći, ali za prvu generaciju vlastitog serverskog procesora rezultat je dovoljno blizu da mijenja ton razgovora.

27 May 2026

What Production Really Demands From Deep Research Agents

Umjetna inteligencijaPrepravljeno

db#5115

Thoughtworksova lekcija: istraživački agent vrijedi tek kad pokaže izvore

Duboki istraživački agenti zvuče kao uredna automatizacija znanja, ali produkcija ih brzo pretvara u problem orkestracije, povjerenja i kontrole izvora.

27 May 2026

SIGnature scores gene importance from single-cell foundation models

Umjetna inteligencijaPrepravljeno

db#5037

SIGnature pretvara velike RNA modele u kartu važnosti gena

SIGnature cilja jedan od tvrdoglavijih problema single-cell biologije: kako iz velikih RNA foundation modela izvući rang važnosti gena koji se može uspoređivati između skupova podataka.

27 May 2026

CVPR 2026 Crosses the 16,000-Paper Threshold

Umjetna inteligencijaPrepravljeno

db#5017

Konferencija Computer Vision Foundationa dobila je 16.000 radova; AI vid ulazi u fazu preopterećenja

CVPR 2026 ulazi u godinu s više od 16.000 prijavljenih radova, a ta brojka više govori o pritisku u AI ekosustavu nego o konferencijskoj logistici.

27 May 2026

BadHost in Starlette Shows Where AI Agents Really Break

Umjetna inteligencijaPrepravljeno

db#4958

BadHost u Starletteu otkriva slabu točku AI agenata: obični web paket

BadHost nije spektakularan kvar modela, nego neugodniji signal: AI agenti sve češće ovise o običnim web paketima koje napadači već znaju čitati kao kartu.

26 May 2026

Google DeepMind Pushes Gemini Toward Scientific Work

Umjetna inteligencijaVIDEOPrepravljeno

db#4926

Google DeepMind gura Gemini u laboratorij, ali dokaz tek mora stići

Google DeepMind je objavio video najavu za Gemini for Science, specijalizirani AI model usmjeren na znanstveno istraživanje, što je važan signal za smjer u kojem se pomiče primjena generativne umjetne inteligencije.

26 May 2026

Umjetna inteligencijaPrepravljeno

db#4922

Gemini Flash 3.5 pokazuje gdje se seli AI bitka: u cijenu, brzinu i kontrolu

Svibanjski AI pregled otvara pitanje tko će nakon Gemini Flasha 3.5 određivati tempo, pristup i kontrolu nad sljedećim slojem AI infrastrukture.

26 May 2026

AI Security Is No Longer an End-of-Project Task

Umjetna inteligencijaPrepravljeno

db#4949

Google Cloud i Francis de Souza guraju AI sigurnost na stol uprave

AI sigurnost prestaje biti tehnička fusnota kada model počne utjecati na podatke, odluke, kod i reputaciju tvrtke.

26 May 2026

Umjetna inteligencijaPrepravljeno

db#4888

Kant se vraća u AI laboratorije jer sigurnost više nije samo benchmark

AI industrija više ne traži samo inženjere koji znaju ubrzati model, nego i ljude koji znaju postaviti pitanje zašto bi ga uopće trebalo pustiti u svijet.

26 May 2026

AI Is Still Not a Reliable Fact-Checking Editor

Umjetna inteligencijaPrepravljeno

db#4900

Wired pokazuje zašto AI fact-checking mora imati ljudsku završnu provjeru

Najopasnija slabost AI provjere činjenica nije samo pogrešan odgovor, nego uvjerljiv pogrešan odgovor koji izgleda dovoljno uredno da prođe dalje.

26 May 2026

GNNs Without the Fog: What IBM Explains Well, and What Stays Thin

Umjetna inteligencijaVIDEOPrepravljeno

db#4800

IBM podsjeća zašto AI mora razumjeti veze, ne samo retke u tablici

IBM-ov novi GNN video nije istraživački događaj, ali dobro pogađa osnovno pitanje: kako AI uči kada su odnosi važniji od pojedinačnih redaka podataka.

25 May 2026

Gemma 4 speeds up token generation with MTP draft models

Umjetna inteligencijaPrepravljeno

db#4789

Gemma 4 napada AI čekanje koje korisnici najviše osjećaju

Gemma 4 dobiva praktičan put prema bržem inferenceu: MTP draft modeli predlažu više tokena odjednom, a glavni model ih potvrđuje u jednom prolazu.

25 May 2026

AI models answer correctly but often cite the wrong evidence

Umjetna inteligencijaPrepravljeno

db#4786

CiteVQA pogađa bolnu točku GPT-a i Geminija: točan odgovor s krivim dokazom

Novi benchmark pokazuje neugodan kvar u AI pouzdanosti: model može dati dobar odgovor, a zatim ga poduprijeti odlomkom koji to zapravo ne dokazuje.

25 May 2026

ByteDance Seed trains LMMs with questions, not page transcription

Umjetna inteligencijaPrepravljeno

db#4745

ByteDance Seed pokazuje zašto dokumentni AI treba tražiti dokaz, a ne prepisivati stranice

ByteDance Seed pomiče težište dokumentne inteligencije s urednog prijepisa na pitanje koje model mora povezati s pravim dokazom u stranici.

24 May 2026

DeepSeek V4-Pro turns discount pricing into a token war

Umjetna inteligencijaPrepravljeno

db#4709

DeepSeek spušta račun za AI agente i tjera OpenAI da brani višu cijenu

DeepSeek je 75-postotni popust za V4-Pro pretvorio u trajnu cijenu, a time je raspravu o AI modelima prebacio s benchmarka na račun po tokenu.

23 May 2026

Altman Asked What AI Should Solve. People Answered: Bills

Umjetna inteligencijaPrepravljeno

db#4699

Sam Altman dobio je najteži AI odgovor: manje računa, više sigurnosti

Sam Altman je otvorio veliko pitanje o budućnosti AI-ja, a publika ga je vratila u mnogo prizemniju sadašnjost: posao, cijene i preživljavanje.

23 May 2026

Ara Khan: evals are broken, but agents still need them

Umjetna inteligencijaVIDEOPrepravljeno

db#4660

Ara Khan iz Clinea: pravi test AI agenata nije demo, nego regresija

Ara Khan iz Clinea ne prodaje evalove kao savršenu metriku, nego kao najkorisniji nesavršeni instrument za popravljanje AI agenata.

23 May 2026

Hassabis and the “foothills of the singularity”: what Google actually said

Umjetna inteligencijaPrepravljeno

db#4448

Googleov govor o singularnosti zapravo je poruka o znanosti i kontroli AI priče

Demis Hassabis zatvorio je Google I/O tvrdnjom da se možda nalazimo u “podnožju singularnosti”, no iza velike fraze stoji opreznija priča o AGI-ju, znanstvenim alatima i Googleovu javnom pozicioniranju.

20 May 2026

AI Enters the Proof Room as Talagrand’s Conjecture Falls

Umjetna inteligencijaPrepravljeno

db#4358

AI u sobi za dokazivanje: Talagrandova slutnja pala je uz malu strojnu pomoć

Tri matematičara dokazala su Talagrandovu konveksnu slutnju iz 1995., uz malu AI asistenciju koja je važnija od svoje veličine.

19 May 2026

The Vatican Puts AI Under a Human Dignity Test

Umjetna inteligencijaPrepravljeno

db#4315

Vatikan gura AI raspravu prema radu, ratovanju i ljudskom dostojanstvu

Papina AI enciklika nije tehnička specifikacija, ali može promijeniti jezik kojim se mjere ratovanje, rad i odgovornost u doba modela.

18 May 2026

SOOHAK Shows AI Can Calculate, But Still Struggles to Stop

Umjetna inteligencijaPrepravljeno

db#4264

Najskuplja AI pogreška možda nije kriv rezultat, nego zadatak koji model nije odbio

SOOHAK ne pita samo mogu li AI modeli riješiti teže matematičke zadatke, nego znaju li prepoznati trenutak kada zadatak uopće nema valjanu postavku.

17 May 2026

Umjetna inteligencijaPrepravljeno

db#4235

Najnoviji AI video modeli padaju tamo gdje demo mora imati posljedicu

WorldReasonBench kroz 400 testova pokazuje da današnji AI video modeli sve bolje glume stvarnost, ali i dalje pucaju na uzroku, posljedici i pravilima scene.

16 May 2026

EMO Cuts MoE Models Where Memory Hurts Most

Umjetna inteligencijaPrepravljeno

db#4220

AI modeli bi mogli postati lakši ako nose samo module koji im stvarno trebaju

EMO pokušava pretvoriti MoE modularnost iz teorijske računarske prednosti u praktičan alat za manje, domenski usmjerene modele.

16 May 2026

Anthropic Puts the AI Race on a 2028 Compute Clock

Umjetna inteligencijaPrepravljeno

db#4199

Do 2028. AI utrka mogla bi se lomiti na čipovima, oblaku i pravilima

Anthropicov policy okvir, prema The Decoderu, pretvara 2028. u test može li SAD svoju AI prednost pretvoriti u trajnu infrastrukturnu moć.

15 May 2026

Agentic AI in finance: data, not code, decides

Umjetna inteligencijaPrepravljeno

db#4158

U financijama AI agenti ne padaju na pameti, nego na podacima

Više od polovice financijskih timova već koristi ili planira agentnu AI, ali stvarni test nije model nego kvaliteta podataka koji ga hrane.

14 May 2026

Thinking Machines wants voice AI to listen while it speaks

Umjetna inteligencijaPrepravljeno

db#4117

Glasovni AI želi naučiti najtežu stvar u razgovoru: slušati dok govori

Thinking Machines Lab predstavlja prvi model koji u 200-milisekundnim koracima pokušava voditi fluidniji, preklapajući razgovor.

12 May 2026

Ernie 5.1: Baidu’s model that argues cheaper can be better

Umjetna inteligencijaPrepravljeno

db#4062

Baiduov novi AI model cilja tamo gdje utrka najviše boli: cijenu treninga

Baidu tvrdi da Ernie 5.1 postiže vrhunske rezultate uz oko 6% uobičajenog troška predtreninga i uz znatno manji model od prethodne verzije.

11 May 2026

OpenAI's DeployCo builds advantage where benchmarks cannot see workflow

Umjetna inteligencijaPrepravljeno

db#4078

OpenAI traži novu prednost u uredima, ne samo u modelima

OpenAI razvija DeployCo kao većinski kontroliranu tvrtku za ugradnju AI sustava u poslovne operacije.

11 May 2026

OpenAI Let $6.6 Billion Out, But Kept Control

Umjetna inteligencijaPrepravljeno

db#4057

OpenAI je otključao milijarde, ali zadržao ključ nad talentom

OpenAI-jeva interna prodaja dionica od 6,6 milijardi dolara nije priča samo o novim multimilijunašima, nego o tome koliko precizno kompanija dozira vlastito bogatstvo.

11 May 2026

GPT-5.5 Is Not Just Pricier on Paper but in Real Use Too

Umjetna inteligencijaPrepravljeno

db#4043

OpenAI-jev skuplji model seli AI raspravu s benchmarka na račun za produkciju

Ako je poruka iz OpenAI-ja bila da će viša cijena GPT-5.5 biti ublažena kraćim odgovorima, podaci na koje se poziva The Decoder sugeriraju da se račun u stvarnom radu ipak osjetno povećava.

10 May 2026

AI money accelerates again as DeepSeek plans a record raise and Core Automation jumps in weeks

Umjetna inteligencijaPrepravljeno

db#3975

AI novac više ne kupuje samo modele, nego put do uredskih procesa

DeepSeek navodno planira veliko financiranje, dok Core Automation brzo podiže valuaciju.

08 May 2026

The enterprise AI gold rush now sells workflows, not just models

Umjetna inteligencijaPrepravljeno

db#3978

AI za velike tvrtke ulazi u fazu u kojoj demo više nije proizvod

Enterprise AI ulaganja sve više ciljaju implementaciju, savjetovanje i workflow slojeve oko temeljnih modela.

08 May 2026

AI maps the world's farms and exposes the gaps in the data

Umjetna inteligencijaPrepravljeno

db#3814

Nova karta svjetskih polja pokazuje i gdje AI još ne vidi dovoljno dobro

Taylor Geospatial i Microsoft objavili su prvi globalni dataset poljoprivrednih polja, nastao analizom satelitskih snimaka iz 18 mjeseci rada.

04 May 2026

Mistral Medium 3.5 Puts Chat, Reasoning and Code Into One Checkpoint

Umjetna inteligencijaPrepravljeno

db#3708

Mistral želi jedan model za posao koji su dosad radila tri

Mistral Medium 3.5 konsolidira Le Chat i Vibe modele u jedan gusti 128B model za tekst, vid, reasoning i kod.

01 May 2026

Goodfire wants AI training to look more like debugging

Umjetna inteligencijaPrepravljeno

db#3625

AI modeli dobivaju debugger, ali crna kutija još nije otvorena

Goodfire je objavio Silico, alat za mehanističku interpretabilnost koji pokušava premjestiti debug LLM-ova u sam proces treniranja.

30 Apr 2026

Tencent’s offline translator fits in 440 MB, but a benchmark is not a passport

Umjetna inteligencijaPrepravljeno

db#3627

Tencentov prevoditelj za telefon pojačava utrku za AI bez oblaka

Tencentov Hy-MT1.5-1.8B-1.25bit komprimira offline prevoditeljski model na 440 MB za 33 jezika i 1.056 smjerova prijevoda.

30 Apr 2026

Xpeng's VLA 2.0 Drags Tesla's Crown Into the Real World

Umjetna inteligencijaPrepravljeno

db#3571

Kineski Xpeng pretvara jedan čisti test u ozbiljan pritisak na Teslu

Xpeng je odvozio 40 minuta kroz pekinški promet bez ijedne ljudske intervencije, čime je VLA 2.0 postao ozbiljniji signal od običnog marketinškog videa.

29 Apr 2026

Google now squeezes PDFs and video into one vector space

Umjetna inteligencijaPrepravljeno

db#3499

Google cilja nevidljivi sloj AI-a: kako se zajedno pretražuju dokumenti, video i zvuk

Googleov Gemini Embedding 2 mapira tekst, video i sirovi audio u jedan vektorski prostor.

27 Apr 2026

Qwen3.6-27B shows bigger is not always better

Umjetna inteligencijaPrepravljeno

db#3393

Alibabin manji AI za kodiranje mijenja računicu iza velikih modela

Qwen3.6-27B navodno nadmašuje znatno veće Qwen prethodnike u coding benchmarkovima, što Alibabi daje efikasniji argument od same veličine modela.

25 Apr 2026

AI Benchmarking

OpenAI čisti ChatGPT i seli korisničke navike prema GPT-5.5 Instantu

Loblaw pokazuje zašto OpenAI sada prodaje radni tok, a ne samo model

Nvidia želi da pomoć za kodiranje ostane uz radni kod, ne u oblaku

DeepSeek gradi Harness tim jer se AI agenti više ne dobivaju samo većim modelom

Waterloo pokazuje gdje AI ima smisla: mali tutor, jasan zadatak, stvarna vježba

OpenAI vodi GPT-Rosalind u biodefense, ali ključni test je povjerenje

Claude Opus 4.8 prodaje rjeđu AI vrlinu: priznati kada nije siguran

Anthropic više ne prodaje samo Claude, nego AI infrastrukturu za velike kupce

OpenAI gura agente iz chata u radni prostor, gdje svaka radnja treba trag

Microsoft 365 Copilot želi prestati izgledati kao demo i ponašati se kao uredski alat

Anthropic s Claudeom prodaje javnom tržištu ideju da je AI infrastruktura

Tom's Hardware: AI podatkovni centri ulaze u spor oko prosvjeda i nadzora

TechCrunch: samopoboljšavajući AI traži dokaz prije nove velike utrke

General Compute traži u SambaNovi izlaz iz uskog grla AI čipova

Nvidia Dynamo Snapshot cilja čekanje koje poskupljuje AI inferenciju

Blackwell cilja financije u kojima spor jezični model ne vrijedi dovoljno

Microsoft se približio Googleu u AI slikama koje moraju čitati tekst

EU AI Act pretvara velike chatbotove iz demo alata u dokazni problem

dlt i stvarni problem AI podatkovnih cjevovoda

Trajectory cilja slabost AI proizvoda: što se dogodi nakon sjajne demonstracije

OpenAI testira Codex ondje gdje AI greške postaju porezni problem

Nvidia Vera više ne izgleda kao slaba karika AI servera

Thoughtworksova lekcija: istraživački agent vrijedi tek kad pokaže izvore

SIGnature pretvara velike RNA modele u kartu važnosti gena

Konferencija Computer Vision Foundationa dobila je 16.000 radova; AI vid ulazi u fazu preopterećenja

BadHost u Starletteu otkriva slabu točku AI agenata: obični web paket

Google DeepMind gura Gemini u laboratorij, ali dokaz tek mora stići

Gemini Flash 3.5 pokazuje gdje se seli AI bitka: u cijenu, brzinu i kontrolu

Google Cloud i Francis de Souza guraju AI sigurnost na stol uprave

Kant se vraća u AI laboratorije jer sigurnost više nije samo benchmark

Wired pokazuje zašto AI fact-checking mora imati ljudsku završnu provjeru

IBM podsjeća zašto AI mora razumjeti veze, ne samo retke u tablici

Gemma 4 napada AI čekanje koje korisnici najviše osjećaju

CiteVQA pogađa bolnu točku GPT-a i Geminija: točan odgovor s krivim dokazom

ByteDance Seed pokazuje zašto dokumentni AI treba tražiti dokaz, a ne prepisivati stranice

DeepSeek spušta račun za AI agente i tjera OpenAI da brani višu cijenu

Sam Altman dobio je najteži AI odgovor: manje računa, više sigurnosti

Ara Khan iz Clinea: pravi test AI agenata nije demo, nego regresija

Googleov govor o singularnosti zapravo je poruka o znanosti i kontroli AI priče

AI u sobi za dokazivanje: Talagrandova slutnja pala je uz malu strojnu pomoć

Vatikan gura AI raspravu prema radu, ratovanju i ljudskom dostojanstvu

Najskuplja AI pogreška možda nije kriv rezultat, nego zadatak koji model nije odbio

Najnoviji AI video modeli padaju tamo gdje demo mora imati posljedicu

AI modeli bi mogli postati lakši ako nose samo module koji im stvarno trebaju

Do 2028. AI utrka mogla bi se lomiti na čipovima, oblaku i pravilima

U financijama AI agenti ne padaju na pameti, nego na podacima

Glasovni AI želi naučiti najtežu stvar u razgovoru: slušati dok govori

Baiduov novi AI model cilja tamo gdje utrka najviše boli: cijenu treninga

OpenAI traži novu prednost u uredima, ne samo u modelima

OpenAI je otključao milijarde, ali zadržao ključ nad talentom

OpenAI-jev skuplji model seli AI raspravu s benchmarka na račun za produkciju

AI novac više ne kupuje samo modele, nego put do uredskih procesa

AI za velike tvrtke ulazi u fazu u kojoj demo više nije proizvod

Nova karta svjetskih polja pokazuje i gdje AI još ne vidi dovoljno dobro

Mistral želi jedan model za posao koji su dosad radila tri

AI modeli dobivaju debugger, ali crna kutija još nije otvorena

Tencentov prevoditelj za telefon pojačava utrku za AI bez oblaka

Kineski Xpeng pretvara jedan čisti test u ozbiljan pritisak na Teslu

Google cilja nevidljivi sloj AI-a: kako se zajedno pretražuju dokumenti, video i zvuk

Alibabin manji AI za kodiranje mijenja računicu iza velikih modela

Kad AI pregovara umjesto vas, slabiji model može tiho naplatiti razliku

Kad pobjeda na AI testu postane skuplji rizik za agente

OpenAI sada prodaje manje nadzora, ali račun je dvostruko veći

Fikcija postaje test koji AI sigurnost još ne prolazi

Bajtovi umjesto rječnika: jednostavna distilacija koja radi

YouTube: Kloniranje s AI avatarom

Lukan AI Agent: IDE koji obećava, ali još ne dokazuje

Refaire: AI tehničari za fizički svijet ili samo novi omot?

Benchmark sjene: Podaci koji obmanjuju AI modele

AI na burzi: Kalshi i Polymarket razotkrili stvarne performanse

Rutinski pregled mogao bi postati rano upozorenje za depresiju

Entropija kao kompas: Zašto LLMs zapravo razmišljaju (ili ne)

Task Bert: Lokalni Agent

AI u vladi: algoritmi umjesto demokracije?

PAM: Kompleksni brojevi stižu u jezične modele

AI smet garbage osvaja internet: tko još vjeruje benchmarku?

AGI je već ovdje? Zaharijin ACM trofej i neugodna pitanja

AI koji zna odgovor naprijed još može pasti na istom pitanju unatrag

Claude je našao previše sigurnosnih rupa za ljudski tim, pa ga Anthropic drži zaključanim

RealChart2Code: benchmark koji razotkriva slabosti VLMova u stvarnom svijetu