Gemini 3.5 Flash testira ekonomiju agentskog AI-ja
A Google-style AI operations room where a fast Gemini Flash core feeds many autonomous task threads while a live token-cost meter stays under control.📷 AI-generated image / TECH&SPACE
- ★Gemini 3.5 Flash prema dostupnom briefu isporučuje gotovo 300 tokena u sekundi.
- ★API cijena je navedena kao 1,50 USD za 1M ulaznih i 9 USD za 1M izlaznih tokena.
- ★Model cilja agentske zadatke u kojima cijena i latencija odlučuju može li proizvod skalirati.
Googleov Gemini 3.5 Flash stiže s porukom koja je važnija od same numeracije modela: agentski AI neće postati svakodnevna infrastruktura ako svaka dulja radnja izgleda kao otvorena kreditna kartica. Prema izvještaju Ars Technice, Google model predstavlja kao učinkovitiju Flash varijantu koja se uvodi kroz njegove proizvode i cilja radne tokove u kojima AI ne odgovara samo na jedno pitanje, nego planira, poziva alate, provjerava rezultate i nastavlja dalje.
U research briefu za članak stoji da Gemini 3.5 Flash izlazi gotovo brzinom od 300 tokena u sekundi. To je bitan podatak zato što agentski sustavi ne troše tokene samo na završni odgovor. Oni troše tokene na međukorake, kontekst, provjere, povratne pozive i popravke. Ako se takav sustav mora vrtjeti tisuće ili milijune puta dnevno, razlika između elegantnog demoa i ozbiljnog proizvoda brzo postaje račun za izlazne tokene.
Google gura brži i jeftiniji model kao temelj za zadatke koji dugo rade, troše mnogo tokena i moraju imati smisla u stvarnim proizvodima.
Close technical view of an agentic workflow: tool calls, document reads and response loops passing through a compact Flash model with cost and latency indicators.📷 AI-generated image / TECH&SPACE
Cijena zato ovdje nije sporedna tablica. Brief navodi 1,50 USD za milijun ulaznih tokena i 9 USD za milijun izlaznih tokena za Gemini 3.5 Flash, dok se Gemini 3.1 Pro u istom kontekstu navodi od 2 USD za milijun ulaznih i 12 USD za milijun izlaznih tokena. Za pojedinačan zahtjev to zvuči sitno. Za agentske procese koji stalno čitaju dokumente, pišu nacrte, pretražuju alate i vraćaju se kroz zadatak, to je upravo mjesto gdje se proizvodna ekonomija lomi. Googleove službene stranice za Gemini API cijene i Gemini modele zato su ovdje jednako važne kao i benchmark grafovi.
Tulsee Doshi, viša direktorica produktnog menadžmenta za Gemini, u briefu je navedena kao osoba koja model pozicionira u širu Googleovu agentsku budućnost. Tvrdnja je jasna: Flash mora biti dovoljno pametan da ne ruši kvalitetu, ali dovoljno brz i jeftin da ga agent može koristiti bez stalnog rezanja koraka. To je oštriji kriterij od klasičnog pitanja je li model “najbolji”. Za mnoge stvarne aplikacije važnije je može li model deset puta zaredom obaviti koristan dio posla bez previsoke latencije i bez troška koji ubija maržu.
Oprez je ipak nužan. Googleova tvrdnja o “frontier-level” inteligenciji u učinkovitijem paketu tek mora proći stvarne produkcijske provjere, osobito u zadacima gdje agent radi s alatima, dugim kontekstom i pogreškama koje se gomilaju. Koristan okvir za procjenu takvih sustava nije samo brzina, nego i upravljanje rizikom, evaluacija i nadzor, što dobro pokriva NIST AI Risk Management Framework. Ako Gemini 3.5 Flash doista zadrži kvalitetu uz nižu cijenu, Google dobiva nešto vrlo konkretno: model koji agentski AI čini manje eksperimentalnim i više nalik infrastrukturi.

