Cuvintele pe care nu le spui vor putea fi adăugate în ”Photoshop” audio

04 noiembrie 2016 | 10:20

Cuvintele pe care nu le spui vor putea fi adăugate în ”Photoshop” audio

Adobe are deja câteva creații software impresionante și unice, dar vrea să-și extindă portofoliul cu un program ce nu poate fi sintetizat decât ca fiind un ,,Photoshop” pentru conținut audio. Acesta va avea abilitatea să insereze cuvinte unde nu sunt.

Pe parcursul anului, cei de la Adobe organizează mai multe conferințe în cadrul cărora detaliază proiectele, mai mult sau mai puțin futuriste, la care lucrează. Una dintre acestea poartă numele de Adobe MAX și s-a desfășurat zilele trecute în San Diego, California. În respectivul context, Zeyu Jin, unul dintre programatorii angajați la Adobe a detaliat un proiect cu un potențial incomensurabil ce momentan se află într-un stadiu incipient. Acesta din urmă poartă numele Project VoCo.

Fără a se arunca la vreun termen vizavi de lansarea unei variante comerciale a noului produs, demonstrația de pe scenă a fost cel puțin impresionantă. Cea mai originală particularitate a constat în abilitatea de a adăuga artificial cuvinte într-o înregistrare originală, cu o voce aproape imposibil de diferențiat de cea auzită pe restul fișierului.

Detaliile proiectului au fost comunicate de către un oficial al companiei americane pentru The Verge și, din câte se pare, intenția este de a transforma VoCo într-o altă soluție profesională de editare audio comercializată de Adobe. Nu este exclusă nici posibilitatea includerii acestei funcții în aplicații gen Adobe Audition, dar aceste detalii vor fi stabilite ulterior.

Project VoCo este rezultatul colaborării dintre două echipe de cercetători din cadrul Adobe Research și Princeton University. Primele detalii despre el au fost publicate de către Creative Blog. În privința funcționalității, pe lângă opțiuni de editare a discursului vorbit și de eliminare a zgomotului de fond, Project VoCo folosește totalitatea unei înregistrări ca sursă de inspirației pentru particularitățile unei anumite voci umane.

Pornind de la acele informații, cu aceeași voce, inserează ulterior cuvintele dorite de utilizatorului aplicației. Pentru a atinge o performanță decentă în atingerea acestui scop, are nevoie de aproximativ 20 de minute de discurs vorbit. Trecând însă peste detaliile teoretice, demonstrația live a părut desprinsă dintr-un film SF.