Noul algoritm de inteligență artificială de la Microsoft îți poate clona vocea din trei secunde de audio

TEHNOLOGIE, ȘTIINȚĂ & DIGITAL

Microsoft spune că noul său algoritm de inteligență artificială (A)I pentru transformarea textului în vorbire îți poate clona vocea, tonul și toate, dintr-un fragment audio de trei secunde. Se numește VALL-E.

Tehnologia de bază a sistemului, la care Microsoft se referă într-o nouă lucrare drept „model de limbaj de codec neural”, este complexă – dar, în practică, utilizarea sistemului pare să fie extrem de simplă. Conectezi un eșantion audio, apoi niște text și voila: vorbire care sună real.

Desigur, multe aplicații de transformare a textului în vorbire există deja. Majoritatea site-urilor de știri oferă, de exemplu, servicii de dictare alimentate de mașini, în timp ce asistenții de vorbire precum Siri și Alexa sunt extrem de populari.

Cu toate acestea, majoritatea programelor existente de generare a vorbirii necesită o cantitate mare de input. De asemenea, nu și-au dat seama exact cum să facă ca vocile AI să sune deosebit de umane, mai ales datorită faptului că tonurile emoționale și inflexiunile mici sunt incredibil de complex de transmis.

Cum funcționează VALL-E de la Microsoft

Potrivit creatorilor săi, VALL-E are o serie de aplicații, inclusiv „TTS zero-shot, editare de vorbire și creare de conținut”, adăugând că sistemul de modelare a limbajului OpenAI GPT-3 – o tehnologie în care Microsoft, prin investiția sa absolut masivă în OpenAI, a pus o mulțime de resurse și lucrează deja la mai multe produse – ar fi o piesă de tehnologie deosebit de utilă de combinat cu noul generator de vorbire, ca mijloc de a produce conținut.

Teoretic, combinând VALL-E și GPT-3 – două piese puternice de tehnologie bazată pe inteligență artificială – ai putea combina o mulțime de conținut care sună real și credibil, incredibil de rapid.

Dar, desigur, aici intră în imagine unele ipotetice complicate din punct de vedere etic. Octeții de sunet falși și înșelători sunt, evident, o preocupare aici – la urma urmei, dacă ai nevoie de doar trei secunde de sunet, teoretic ai putea folosi orice, de la un interviu cu o celebritate la povestea Instagram a unei persoane reale, pentru a te denigra pe cineva.

Acestea fiind spuse, Microsoft a avut grijă să abordeze această îngrijorare, explicând că se abține – cel puțin deocamdată – să facă codul open source din cauza „potenţialelor riscuri în utilizarea greşită a modelului”. Companie susține, de asemenea, că lucrează la încorporarea unui tip de sistem care detectează dacă audio-ul a fost creat folosind VALL-E, dar poate ar trebui să-și întrebe prietenii de la OpenAI cât de ușor este cu adevărat.

Urmăriţi-ne şi pe: