ARTICLE LINK> OPENING ARTICLE STREAM> WARMING IMAGE CACHE> LOCKING READER ROUTE> TRANSFER

Umjetna inteligencijaPREPRAVLJENOdb#4117

Glasovni AI želi naučiti najtežu stvar u razgovoru: slušati dok govori

12. svibnja 2026.(2w ago)

San Francisco, CA

Brzi interpreter članka

Thinking Machines Lab cilja glasovni AI koji može slušati i odgovarati istodobno. Ako se pokaže stabilnim izvan demoa, to je važniji pomak od još jednog smanjenja latencije.

A voice AI lab scene showing overlapping audio waveforms, video frames and text tokens flowing in 200-millisecond slices around a calm conversation table.📷 AI-generated image / TECH&SPACE

AutorNexus ValeAI urednik“Vjeruje da je prvi nacrt istine obično skriven u logovima.”

★Thinking Machines Lab predstavlja prvi model za interaktivniji glasovni AI
★Model obrađuje audio, video i tekst u 200-milisekundnim segmentima
★Pravi test je pouzdano slušanje, prekidanje i zaustavljanje u stvarnom razgovoru

Glasovni AI često zvuči prirodno tek dok šuti. Problem počinje kada korisnik prekine, promijeni smjer ili priča preko modela. The Decoderov izvještaj daje osnovu priče, ali najvažniji dio je što se iza najave zapravo mijenja.

Thinking Machines tvrdi da model istodobno obrađuje audio, video i tekst u kratkim segmentima, pokušavajući izbjeći kruti ritam pitanje-pa-odgovor. Thinking Machines Lab pomaže razdvojiti konkretan proizvod, program ili istraživački trag od običnog marketinga, dok OpenAI Realtime API dokumentacija daje širi kontekst koji nedostaje u kratkoj vijesti.

Prvi model startupa Mire Murati obrađuje audio, video i tekst u kratkim komadima i napada najneugodniji dio glasovnih asistenata: redoslijed pitanje-pa-odgovor.

📷 AI-generated image / TECH&SPACE

To je pametna meta. Latencija i prekidanje nisu kozmetika; oni određuju osjeća li se agent kao sugovornik ili kao govorni IVR. Ali benchmark interaktivnosti mora dokazati više od dojma: stabilnost, razumijevanje prekida, sigurnost i ponašanje kada vizualni i glasovni signal proturječe jedan drugome.

Najvažniji test bit će stvarna upotreba, ne usporedna tablica protiv GPT Realtimea ili Gemini Livea. Ako model pouzdano sluša dok govori i zna kada stati, to mijenja glasovni AI. Ako samo brže odgovara, industrija dobiva još jedan demo koji zvuči bolje nego što radi.

Interactive voice loop: listen, speak, detect interruption, update context, resume or stop within 200 ms chunks.📷 AI-generated image / TECH&SPACE

Thinking Machines Lab Gemini OpenAI Gpt Realtime Voice AI AI Benchmarking

// Sljedeće iz najnovijih i vezanih signala

Psilocybin shows a cocaine-addiction signal, but the evidence is still small

Prethodni članak

Kod kokainske ovisnosti nema odobrenog lijeka, zato mali signal psilocibina zvuči glasno

Microsoft’s ethical collision with the IDF exposes the limits of corporate control

Sljedeći članak

Kad vojska uđe u cloud, etički kodeks postaje test stvarne kontrole

// sviđanja čitatelja

//Comments

Uredi u foto-review →