Inteligența artificială Google a făcut o mașinărie să aibă voce aproape umană
Una dintre cele mai importante caracteristici umane pe care computerele nu o pot replica este vocea umană. Sau, cel puțin, așa stăteau lucrurile până acum.
Desigur, am evoluat mult de la seria „Lost in Space” și de la vocea (mult prea) mecanică a lui Robot B9, dar aveam impresia că va mai dura mult până când computerele vor suna uman. Grație DeepMind, inteligența artificială a celor de la Google, acest lucru a devenit realitate.
Google a anunțat un nou program de sintetizare vocală în WaveNet, bazat pe inteligența artificială DeepMind. Înțelegerea vocii este esențială pentru programe precum Google Voice Search, dar sintetizarea ei a fost o provocare destul de mare.
Până în momentul de față, cea mai relevantă metodă era TTS-ul (text-to-speech) care combină fragmente din discursuri înregistrate separat. Un mare lips era faptul că nu putea modifica fragmentele respective pentru a crea ceva nou, așa că vocea care „recita” textul suna robotic. Pentru că, evident, eșua în a exprima emoții și în a suna natural, a crescut cererea pentru TTS-ul parametric, care permite controlarea conținutului și caracteristicilor discursului. Din păcate, acesta sună și mai artificial decât primul tip de TTS, mai ales pentru limbi silabice precum engleza.
WaveNet folosește o abordare diferită. În loc să analizeze pur și simplu mesajul înregistrat, îl „învață”, așa cum o fac majoritatea sistemelor neurale actuale. Lucrează cu cel puțin 16.000 de sample-uri pe secundă, iar WaveNet poate genera propriile mostre audio, fără prea multă intervenție umană. Folosește statistici pentru a anticipa ce fragment îi trebuie pentru ca textul să aibă sens.
Poate cea mai impresionantă parte e faptul că sistemul poate sintetiza discursuri fără input, spre deosebire de TTS. Articolul publicat pe site-ul oficial DeepMind explică în detaliu cum funcționează noul program și, în plus, poți asculta câteva mostre audio generate de WaveNet. Bonus, câteva fragmente muzicale care sună chiar bine.