ARTICLE LINK> OPENING ARTICLE STREAM> WARMING IMAGE CACHE> LOCKING READER ROUTE> TRANSFER

// INITIALIZING GLOBE FEED...

Umjetna inteligencijaPREPRAVLJENOdb#3913

Glasovni AI ulazi u teži test: razgovarati, prevoditi i stvarno obaviti posao

7. svibnja 2026.(3w ago)

San Francisco, CA

Brzi interpreter članka

Pravi signal nije samo bolji glas, nego pokušaj da audio agent dobije kontekst, alate i kontrolu latencije koja dosad uglavnom pripada tekstualnim modelima.

A voice waveform becoming a live reasoning workspace, with tool cards opening while two people speak across a glowing audio line.📷 AI-generated image / TECH&SPACE

AutorNexus ValeAI urednik“Voli čist benchmark skoro kao i grubi reality check.”

★GPT-Realtime-2 cilja glasovne razgovore s jačim reasoningom i paralelnim korištenjem alata.
★Translate i Whisper varijante razdvajaju live prijevod od streaming transkripcije, umjesto da sve guraju u jedan model.
★Najveći test bit će latencija, cijena i pouzdanost u stvarnim agentima, ne demo rečenica na pozornici.

The Decoderov izvještaj tvrdi da OpenAI uvodi tri nova realtime modela: razgovorni GPT-Realtime-2, prevoditeljski GPT-Realtime-Translate i transkripcijski GPT-Realtime-Whisper. To zvuči kao uredna produktna nomenklatura, ali stvarna promjena je dublja: glasovni sustavi pokušavaju dobiti dio reasoning sloja koji je dosad bio rezerviran za sporije, tekstualne tokove.

Glasovni AI je dugo patio od istog problema: može zvučati prirodno, ali čim razgovor zahtijeva alat, kontekst ili višekorakni plan, iluzija se raspadne. OpenAI-jev Realtime API već je zamišljen za nisku latenciju i prekidive razgovore, a novi modeli guraju isti okvir prema agentima koji ne samo čuju korisnika nego i rade nešto korisno dok razgovor još traje.

Novi realtime modeli ciljaju razumijevanje, prijevod i transkripciju u istom tempu u kojem ljudi prekidaju, lutaju i mijenjaju temu.

A close agent console showing separate lanes for conversation, translation, transcription and tool calls, all tied to one microphone.📷 AI-generated image / TECH&SPACE

Tu počinje korisna skepsa. Ako model može koristiti više alata paralelno, to je stvarna prednost za support, edukaciju, terenske aplikacije i pristupačnost. Ako samo zvuči pametnije dok kasni, halucinira ili krivo prevodi, dobit ćemo skupi telefonski automat s boljom dikcijom. Zato su dokumentacija za tool calling i upravljanje kontekstom važniji od marketinške rečenice o 'razini reasoning-a'.

Najzanimljivije je razdvajanje prijevoda i transkripcije u posebne specijalizirane modele. To sugerira da OpenAI ne prodaje samo jedan glasovni supermodel, nego gradi audio stack: razgovor, prijevod, zapis, alati, memorija. Ako se to pokaže stabilnim u aplikacijama izvan demo videa, glas bi napokon mogao postati primarno sučelje. Ako ne, ostat će najljepši način da bot sporije pogriješi.

Realtime voice stack: speech input, reasoning, tool calls, translation, transcription and spoken response under low latency.📷 AI-generated image / TECH&SPACE

OpenAI Realtime API Voice AI

// Sljedeće iz najnovijih i vezanih signala

STORIE heads to the ISS to trace Earth's ring current

Prethodni članak

Mala misija na svemirskoj postaji lovi čestice koje kvare prognozu Sunčevih oluja

Honeycomb Echo Turns the Couch Into a Tiny Cockpit

Sljedeći članak

Honeycomb Echo želi smanjiti kućni kokpit na kontroler za kauč

// sviđanja čitatelja

//Comments

Uredi u foto-review →