MAI-Transcribe-1: 2,5x brži, ali tko to zapravo koristi?
Editorialni vizual za "MAI-Transcribe-1: 2,5x brži, ali tko to zapravo koristi?", usmjeren na glavni sustav i ulog priče.📷 AI-generated / Tech&Space editorial composite
- ★2,5x brža transkripcija od prethodnika po $0,36/sat
- ★25 jezika i buka – benchmarki vs. stvarni uvjeti
- ★Teams i Copilot dobivaju prednost, ali što s ostalima?
Microsoftov MAI-Transcribe-1 nije samo 2,5 puta brži od svog prethodnika – već košta 0,36 $ po satu audiozapisa, što ga čini jednim od najjeftinijih rješenja u klasi za multijezičnu transkripciju. Problem je što ta klasa uopće ne postoji u stvarnom svijetu: većina korisnika ili plaća 10 puta više za specijalizirane usluge ili se muči s besplatnim alatima poput Whispera, koji ne podnosi pozadinsku buku ni preklapajući govor.
Microsoft tvrdi da je njihov model najtočniji na FLEURS benchmarku – ali benchmarki su kao gimnazijske ocjene, a stvarni ispit dolazi kad ga 10.000 call centara pokrene istovremeno. Ono što ovdje zapravo zanimljivo jest što Microsoft ne prodaje model – već ga integrira u vlastite proizvode. Teams, Copilot Voice, Azure AI dobivaju instantnu prednost, dok konkurencija (poput Coherea ili Mistrala) mora ili licencirati rješenje ili razvijati vlastito.
Benchmark pobjede su lijepo, ali stvarni test je u Teamsu i Call Centru
Drugi vizualni kut koji prikazuje praktični mehanizam iza teme "Benchmark pobjede su lijepo, ali stvarni test je u Teamsu i Call Centru".📷 AI-generated / Tech&Space editorial composite
Cijena od 0,36 $ zvuči privlačno, ali pitanje je koliko će koštati kada se u obzir uzmu API latencija, skaliranje i – najvažnije – podrška za hrvatski. Spoiler: u popisu od 25 jezika ga još uvijek nema.
Dakle, radi se o strategijskom potezu, a ne samo o tehničkom napretku. Microsoft ne želi biti najbolji u benchmarkovima – želi biti neizbježan za svaku tvrtku koja koristi Office 365.
To je pametno, ali i maliciozno: ako vaš tim koristi Teams, veće su šanse da ćete platiti za MAI-Transcribe-1 nego li tražiti alternativu. Developer community već primjećuje da je dokumentacija 'zanimljivo nejasna' oko graničnih slučajeva – recimo, transkripcije s jakim naglascima ili dijalektima.
Microsoft ne spominje konkretne WER (Word Error Rate) brojeve za realne uvjete – samo benchmark uspjehe. To nije neobično (većina tvrtki radi isto), ali je ipak čudno kada se model hvali upravo robusnošću prema buci. The Decoder bilježi da je MAI-Transcribe-1 testiran na preklapajućem govoru, ali ne navodi koliko je to stvarno poboljšanje u odnosu na, recimo, Whisper-large-V3.
