Modelul de limbaj VALL-E AI de la Microsoft poate imita orice voce dintr-un fișier audio: cum funcționează

11 ianuarie 2023 | 10:22

Modelul de limbaj VALL-E AI de la Microsoft poate imita orice voce dintr-un fișier audio: cum funcționează

Microsoft și-a prezentat cele mai recente cercetări în domeniul text-to-speech AI cu un model numit VALL-E care poate simula vocea cuiva dintr-un eșantion audio de trei secunde.

Așadar, discursul nu se potrivește doar cu timbrul, ci și cu tonul emoțional al vorbitorului și chiar cu acustica unei camere. Ar putea fi folosit într-o zi pentru aplicații personalizate sau high-end text-to-speech, deși, la fel ca deepfake-urile, prezintă riscuri de utilizare greșită.

VALL-E este ceea ce Microsoft numește „model de limbaj de codec neuronal”. Este derivat din Encodec-ul rețelei neurale de compresie alimentat de AI al Meta, care generează sunet din introducerea textului și mostre scurte de la fișierul audio țintă.

Cum funcționează VALL-E de la Microsoft

Într-o lucrare, cercetătorii descriu modul în care au instruit VALL-E pe 60.000 de ore de vorbire în limba engleză, de la peste 7.000 de vorbitori din biblioteca audio LibriLight a Meta. Vocea pe care încearcă să o imite trebuie să se potrivească cu o voce din datele de antrenament. Dacă este cazul, folosește datele de antrenament pentru a deduce cum ar suna vorbitorul țintă dacă ar rosti textul dorit.

Microsoft

Echipa arată exact cât de bine funcționează acest lucru pe pagina Github VALL-E. Pentru fiecare frază pe care doresc ca inteligența artificială să „vorbească”, ei au o solicitare de trei secunde din partea vorbitorului pe care să o imite, un „adevăr de bază” al aceluiași vorbitor care spune o altă frază pentru comparație, o „linie de bază” convențională text-to-speech sinteza si proba VALL-E la final.

Rezultatele sunt amestecate, unele sună asemănătoare unei mașini, iar altele sunt surprinzător de realiste. Faptul interesant e că păstrează tonul emoțional al mostrelor originale. De asemenea, se potrivește mediului acustic, așa că, dacă speakerul și-a înregistrat vocea într-o sală cu ecou, VALL-E sună ca și cum ar fi venit din același loc.

Pentru a îmbunătăți modelul, Microsoft plănuiește să-și extindă datele de antrenament „pentru a îmbunătăți performanța modelului din perspectiva prozodiei, stilului de vorbire și asemănării speakerului”. De asemenea, explorează modalități de a reduce cuvintele neclare sau ratate.