Glasovni AI ulazi u teži test: razgovarati, prevoditi i stvarno obaviti posao
A voice waveform becoming a live reasoning workspace, with tool cards opening while two people speak across a glowing audio line.📷 AI-generated image / TECH&SPACE
- ★GPT-Realtime-2 cilja glasovne razgovore s jačim reasoningom i paralelnim korištenjem alata.
- ★Translate i Whisper varijante razdvajaju live prijevod od streaming transkripcije, umjesto da sve guraju u jedan model.
- ★Najveći test bit će latencija, cijena i pouzdanost u stvarnim agentima, ne demo rečenica na pozornici.
The Decoderov izvještaj tvrdi da OpenAI uvodi tri nova realtime modela: razgovorni GPT-Realtime-2, prevoditeljski GPT-Realtime-Translate i transkripcijski GPT-Realtime-Whisper. To zvuči kao uredna produktna nomenklatura, ali stvarna promjena je dublja: glasovni sustavi pokušavaju dobiti dio reasoning sloja koji je dosad bio rezerviran za sporije, tekstualne tokove.
Glasovni AI je dugo patio od istog problema: može zvučati prirodno, ali čim razgovor zahtijeva alat, kontekst ili višekorakni plan, iluzija se raspadne. OpenAI-jev Realtime API već je zamišljen za nisku latenciju i prekidive razgovore, a novi modeli guraju isti okvir prema agentima koji ne samo čuju korisnika nego i rade nešto korisno dok razgovor još traje.
Novi realtime modeli ciljaju razumijevanje, prijevod i transkripciju u istom tempu u kojem ljudi prekidaju, lutaju i mijenjaju temu.
A close agent console showing separate lanes for conversation, translation, transcription and tool calls, all tied to one microphone.📷 AI-generated image / TECH&SPACE
Tu počinje korisna skepsa. Ako model može koristiti više alata paralelno, to je stvarna prednost za support, edukaciju, terenske aplikacije i pristupačnost. Ako samo zvuči pametnije dok kasni, halucinira ili krivo prevodi, dobit ćemo skupi telefonski automat s boljom dikcijom. Zato su dokumentacija za tool calling i upravljanje kontekstom važniji od marketinške rečenice o 'razini reasoning-a'.
Najzanimljivije je razdvajanje prijevoda i transkripcije u posebne specijalizirane modele. To sugerira da OpenAI ne prodaje samo jedan glasovni supermodel, nego gradi audio stack: razgovor, prijevod, zapis, alati, memorija. Ako se to pokaže stabilnim u aplikacijama izvan demo videa, glas bi napokon mogao postati primarno sučelje. Ako ne, ostat će najljepši način da bot sporije pogriješi.

