Glasovni AI želi naučiti najtežu stvar u razgovoru: slušati dok govori
A voice AI lab scene showing overlapping audio waveforms, video frames and text tokens flowing in 200-millisecond slices around a calm conversation table.📷 AI-generated image / TECH&SPACE
- ★Thinking Machines Lab predstavlja prvi model za interaktivniji glasovni AI
- ★Model obrađuje audio, video i tekst u 200-milisekundnim segmentima
- ★Pravi test je pouzdano slušanje, prekidanje i zaustavljanje u stvarnom razgovoru
Glasovni AI često zvuči prirodno tek dok šuti. Problem počinje kada korisnik prekine, promijeni smjer ili priča preko modela. The Decoderov izvještaj daje osnovu priče, ali najvažniji dio je što se iza najave zapravo mijenja.
Thinking Machines tvrdi da model istodobno obrađuje audio, video i tekst u kratkim segmentima, pokušavajući izbjeći kruti ritam pitanje-pa-odgovor. Thinking Machines Lab pomaže razdvojiti konkretan proizvod, program ili istraživački trag od običnog marketinga, dok OpenAI Realtime API dokumentacija daje širi kontekst koji nedostaje u kratkoj vijesti.
Prvi model startupa Mire Murati obrađuje audio, video i tekst u kratkim komadima i napada najneugodniji dio glasovnih asistenata: redoslijed pitanje-pa-odgovor.
📷 AI-generated image / TECH&SPACE
To je pametna meta. Latencija i prekidanje nisu kozmetika; oni određuju osjeća li se agent kao sugovornik ili kao govorni IVR. Ali benchmark interaktivnosti mora dokazati više od dojma: stabilnost, razumijevanje prekida, sigurnost i ponašanje kada vizualni i glasovni signal proturječe jedan drugome.
Najvažniji test bit će stvarna upotreba, ne usporedna tablica protiv GPT Realtimea ili Gemini Livea. Ako model pouzdano sluša dok govori i zna kada stati, to mijenja glasovni AI. Ako samo brže odgovara, industrija dobiva još jedan demo koji zvuči bolje nego što radi.

