DeepSeek V4 pokušava prodati frontier AI po nižoj cijeni
AI-generated Tech&Space editorial visual.📷 AI-generated / Tech&Space
- ★DeepSeek V4 Flash i Pro ciljaju dugi kontekst i niži inferencijski trošak.
- ★V4 Pro ima 1,6T ukupnih parametara, ali aktivira 49B po prolazu.
- ★Benchmark tvrdnje vrijede tek kad ih potvrde neovisni testovi u stvarnim agentskim zadacima.
DeepSeek je predstavio V4 Flash i V4 Pro kao preview nove generacije svojih jezičnih modela, a poruka je pažljivo složena: više konteksta, niži trošak i dovoljno jak reasoning da se razgovor više ne vodi samo oko zatvorenih frontier API-ja. TechCrunchov izvještaj navodi da su oba modela mixture-of-experts sustavi s context windowom od 1 milijun tokena, dok Pro verzija ima 1,6T ukupnih parametara i 49B aktivnih po prolazu.
To je broj koji će završiti u naslovima, ali nije najvažniji dio priče. Mixture-of-experts arhitektura znači da se ne koristi cijeli model za svaki zadatak, pa je stvarni operativni test drukčiji od sirove veličine. Službena DeepSeek objava pozicionira V4-Pro kao jaču reasoning opciju, a V4-Flash kao bržu i ekonomičniju varijantu. Hugging Face model card dodaje bitnu tehničku nijansu: Flash ima 284B ukupnih i 13B aktivnih parametara, dok oba modela podržavaju 1M-token kontekst.
VELIKI KONTEKST NIJE AUTOMATSKI KORISTAN
Dugi kontekst zvuči kao jednostavna pobjeda: ubaciš repozitorij, dokumentaciju ili višesatni trag rada i model nastavlja. U praksi, 1M tokena vrijedi samo ako se može koristiti bez eksplozije KV cachea, latencije i cijene. Hugging Faceov tehnički opis naglašava upravo taj dio: V4 koristi hibridni attention pristup s kompresijom kako bi dugi kontekst bio operativno jeftiniji, a ne samo impresivan u maksimalnoj specifikaciji.
To je relevantno za agentske zadatke. Kod dugih coding sesija, istraživačkih tokova ili alata koji stalno vraćaju rezultate, problem nije samo hoće li model pamtiti više teksta. Problem je hoće li ostati stabilan nakon desetog poziva alata, hoće li pratiti prethodne odluke i hoće li se cijena jedne sesije pretvoriti u argument protiv proizvoda. DeepSeek zato ne prodaje samo benchmark. Prodaje računicu.
Preview modela izgleda impresivno na papiru, ali pravi test nije broj parametara nego cijena, latencija i ponašanje u dugim agentskim zadacima.
AI-generated Tech&Space explanatory visual.📷 AI-generated / Tech&Space
CIJENA JE NAPAD NA ZATVORENE API-JE
DeepSeekovu tvrdnju da se V4 približava frontier modelima treba držati u navodnicima dok je ne potvrde vanjski testovi. Benchmarkovi za reasoning i coding mogu pokazati smjer, ali često ne hvataju ono što developeri zapravo trpe: nejasne upute, prljave repozitorije, pogrešan retrieval, višejezične zahtjeve i dugačke sesije u kojima se greške zbrajaju. Tu se model prestaje ponašati kao tablica rezultata i počinje se ponašati kao infrastruktura.
Ipak, ekonomika je ozbiljan pritisak. TechCrunch navodi da V4 Flash košta 0,14 dolara po milijun input tokena i 0,28 dolara po milijun output tokena, dok V4 Pro ide na 0,145 dolara inputa i 3,48 dolara outputa po milijunu tokena. Ako se te cijene održe uz prihvatljivu pouzdanost, DeepSeek ne mora pobijediti svaki frontier benchmark da bi promijenio odluke kupaca. Dovoljno je da bude dovoljno dobar, otvoreniji i značajno jeftiniji u zadacima koji gutaju kontekst.
Otvoreni ekosustav time dobiva još jedan gravitacijski centar uz DeepSeekov javni GitHub trag i konkurenciju poput Llama modela. Reputacijski sloj ne nestaje: DeepSeek je i dalje pod povećalom zbog optužbi oko distilacije i korištenja tuđih modela. Te optužbe ne poništavaju tehničku objavu, ali podižu prag dokaza.
Stvarni signal stiže kada istraživači i developeri stave V4 u neuredne, ponovljive testove: dugi kodni zadaci, rad s alatima, sigurnosno ponašanje, višesatni kontekst i stvarni trošak po završenom poslu. Ako V4 tu izdrži, DeepSeek nije samo izbacio veliki model. Izbacio je cjenovni problem za sve koji frontier AI prodaju kao zatvorenu premium robu.