Compania care conduce Google are „robotul” care vorbește ca un om

de: Nicoleta Apostol
07 10. 2017

Anul trecut, DeepMind a împărtășit detalii despre WaveNet, o rețea neurală capabilă să producă un discurs sintetic realist.

Acum, sistemul a fost suficient de perfecționat pentru a garanta o lansare completă pentru Google Assistant pe toate platformele. Un sistem de sinteză a vorbirii, cunoscut sub numele de text-to-speech (TTS), utilizează două tehnici de lucru. Prima presupune combinarea fragmentelor de înregistrări ale unui actor de voce, dar partea proastă a acestei metode este că bibliotecile audio trebuie înlocuite ori de câte ori se fac upgrade-uri sau modificări.

Cealaltă tehnică, parametrică, utilizează un set de parametri pentru a produce vocea generată de calculator, dar acest discurs poate suna nenatural și robotic.

WaveNet, pe de altă parte, produce forme de undă de la zero pe baza unui sistem dezvoltat folosind o rețea neurală. Pentru  început, un număr mare de eșantioane de voci au fost folosite pentru a instrui platforma și pentru a le sintetiza, luând în considerare formele de undă care au sunat realist. Acest lucru a dat sintetizatorului de voce abilitatea de a produce o intonație naturală. În funcție de eșantioanele introduse în sistem, acesta ar dezvolta un accent unic, ceea ce înseamnă că ar putea fi folosit pentru a crea un număr de voci distincte, dacă ar fi alimentat seturi de date diferite.

Cea mai mare limitare a lui WaveNet a fost că, inițial, a necesitat o cantitate semnificativă de putere de calcul și nu a fost foarte rapid, având nevoie de o secundă pentru a genera 0,2 secunde de sunet. După îmbunătățirea sistemului, lucru ce a necesitat 12 luni, inginerii DeepMind au optimizat WaveNet până la punctul în care acesta poate produce acum o formă de undă brută de o secundă în doar 50 de milisecunde, de 1.000 de ori mai rapidă decât originalul. Mai mult, rezoluția fiecărui eșantion a crescut de la 8 biți la 16 biți, contribuind la scorurile sale mai mari în teste cu ascultătorii umani.

[readmore]

Odată cu aceste îmbunătățiri sistemul poate fi integrat în produsele de consum, cum ar fi Google Assistant. WaveNet este acum folosit pentru a genera vocea englezilor și japonezilor pentru Google Assistant, pe toate platformele. Deoarece sistemul poate crea voci specializate bazate pe ce mostre sunt introduse în el, Google ar trebui să poată utiliza WaveNet pentru a sintetiza un discurs uman realist, pentru alte limbi și dialecte care avansează.