MAI-Transcribe-1: 2,5x brži, ali tko to zapravo koristi?
📷 © Tech&Space
- ★2,5x brža transkripcija od prethodnika po $0,36/sat
- ★25 jezika i buka – benchmarki vs. stvarni uvjeti
- ★Teams i Copilot dobivaju prednost, ali što s ostalima?
Microsoftov MAI-Transcribe-1 nije samo 2,5 puta brži od svog prethodnika – već košta 0,36 $ po satu audiozapisa, što ga čini jednim od najjeftinijih rješenja u klasi za multijezičnu transkripciju. Problem je što ta klasa uopće ne postoji u stvarnom svijetu: većina korisnika ili plaća 10 puta više za specijalizirane usluge ili se muči s besplatnim alatima poput Whispera, koji ne podnosi pozadinsku buku ni preklapajući govor.
Microsoft tvrdi da je njihov model najtočniji na FLEURS benchmarku – ali benchmarki su kao gimnazijske ocjene, a stvarni ispit dolazi kad ga 10.000 call centara pokrene istovremeno. Ono što ovdje zapravo zanimljivo jest što Microsoft ne prodaje model – već ga integrira u vlastite proizvode. Teams, Copilot Voice, Azure AI dobivaju instantnu prednost, dok konkurencija (poput Coherea ili Mistrala) mora ili licencirati rješenje ili razvijati vlastito.
📷 © Tech&Space
Benchmark pobjede su lijepo, ali stvarni test je u Teamsu i Call Centru
Cijena od 0,36 $ zvuči privlačno, ali pitanje je koliko će koštati kada se u obzir uzmu API latencija, skaliranje i – najvažnije – podrška za hrvatski. Spoiler: u popisu od 25 jezika ga još uvijek nema.
Dakle, radi se o strategijskom potezu, a ne samo o tehničkom napretku. Microsoft ne želi biti najbolji u benchmarkovima – želi biti neizbježan za svaku tvrtku koja koristi Office 365.
To je pametno, ali i maliciozno: ako vaš tim koristi Teams, veće su šanse da ćete platiti za MAI-Transcribe-1 nego li tražiti alternativu. Developer community već primjećuje da je dokumentacija 'zanimljivo nejasna' oko graničnih slučajeva – recimo, transkripcije s jakim naglascima ili dijalektima.
Microsoft ne spominje konkretne WER (Word Error Rate) brojeve za realne uvjete – samo benchmark uspjehe. To nije neobično (većina tvrtki radi isto), ali je ipak čudno kada se model hvali upravo robusnošću prema buci. The Decoder bilježi da je MAI-Transcribe-1 testiran na preklapajućem govoru, ali ne navodi koliko je to stvarno poboljšanje u odnosu na, recimo, Whisper-large-V3.