OpenAI anunță că poate clona o voce din doar 15 secunde de înregistrare audio

de: Ozana Mazilu
01 04. 2024

OpenAI tocmai a anunțat că a efectuat recent o previzualizare la scară mică a unei noi unelte, numită Motor vocal.

Aceasta este o tehnologie de clonare a vocii care poate imita orice vorbitor analizând o mostră audio de 15 secunde. Compania spune că generează „discurs natural” cu voci „emoționale și realiste”.

Clonarea vocii cu OpenAI

Tehnologia se bazează pe API-ul existent al companiei pentru conversia textului în vorbire și a fost în lucru încă din 2022. OpenAI a folosit deja o versiune a setului de instrumente pentru a alimenta vocile predefinite disponibile în API-ul actual de conversie a textului în vorbire și în funcția de citire cu voce tare. Există o serie de exemple pe blogul oficial al companiei și sună înspăimântător de aproape de realitate. Te încurajez să le asculți și să-ți imaginezi posibilitățile, atât bune, cât și rele.

OpenAI spune că vede această tehnologie utilă pentru asistența la citire, traducerea limbilor și pentru a-i ajuta pe cei care suferă de afecțiuni bruște sau degenerative ale vorbirii. Compania a adus în discuție un program pilot la Brown University care a ajutat un pacient cu probleme de vorbire prin crearea unui clone Voice Engine dintr-o înregistrare audio realizată pentru un proiect școlar.

În ciuda beneficiilor potențiale, hackerii cu siguranță ar abuza această tehnologie pentru a se implica în unele farse serioase de tip deepfake, care deja este o problemă. Având acest lucru în vedere, Motorul Vocal nu este încă pregătit pentru prima ediție, deoarece există probleme grave de confidențialitate care trebuie rezolvate înainte de o implementare completă.

Care sunt riscurile

OpenAI recunoaște că această tehnologie are „riscuri serioase, care sunt în special în prim-plan într-un an electoral”. Compania spune că integrează feedback-ul de la „parteneri din SUA și internaționali din toate domeniile guvernului, mass-media, divertismentului, educației, societății civile și dincolo de acestea” pentru a asigura lansarea produsului cu un minim de risc. Toți testerii previzualizării au fost de acord cu politicile de utilizare ale OpenAI, care interzic imitarea unei alte persoane fără consimțământ sau drept legal.

În plus, oricine folosește tehnologia va trebui să-și informeze audiența că vocile sunt generate de IA. OpenAI a implementat măsuri de siguranță, cum ar fi marcajul cu watermark pentru a urmări originea oricărei înregistrări audio și „monitorizarea proactivă” a modului în care sistemul este utilizat. Când produsul este lansat oficial, va exista o „listă de voci interzise” care detectează și previne vorbitorii generați de IA care sunt prea asemănători cu figuri proeminente.

În ceea ce privește momentul lansării, OpenAI rămâne secretos.