TECH & SPACE
PROEN
Space Tracker
Meta tag

speech AI

1 članak

DSUs capture sounds better than tone, and speech AI has to notice
AIPrepravljeno
db#3400

DSU dobro hvataju glasove, ali se tonovi gube u kvantizaciji

Diskretne govorne jedinice pretvaraju kontinuirani govor u niz tokena koji su praktični za modele, osobito kada se tekst i govor obrađuju zajedno. Problem iz rada arXiv:2604.07467 je da se pri toj kompresiji ton u mandarinskom i Yorùbá jeziku gubi pouzdanije nego samoglasnici i suglasnici. Autori zato traže tone-aware ili prosody-aware metode, ne samo veće modele.

25 Apr 2026
⊞ Foto Review