O să vorbești cu roboți la telefon și nici nu-ți vei da seama. Cum vor profita oamenii de așa ceva
Vocile artificiale au devenit omniprezente. Ne spun direcțiile dimineața, când vrem să găsim drumul cel mai liber către serviciu, ne păstoresc prin apeluri telefonice pe timp de zi și difuzează știrile pe difuzoarele inteligente noaptea.
Iar pe măsură ce tehnologia utilizată pentru a crea aceste voci se îmbunătățește, ele devin din ce în ce mai asemănătoare vocii umane. Aceasta este ultima frontieră în vorbirea sintetică: replicarea nu doar a ceea ce spunem ci și a modului în care o spunem.
Cum faci vocile artificiale să sune natural?
Rupal Patel conduce un grup de cercetare la Universitatea Northeastern care studiază prozodia vorbirii – schimbările în ton, intensitate și durată pe care le folosim pentru a transmite intenția și emoția prin voce.
Patel spune că a devenit interesată de prozodie după ce a constatat că este singurul element al comunicării vocale care părea să fie disponibil pentru persoanele cu unele tipuri de tulburări severe de vorbire.
Acești pacienți au fost capabili să scoată sunete expresive chiar dacă nu puteau vorbi clar. În 2014, Patel a înființat o companie pentru a construi voci sintetice personalizate pentru indivizi care nu vorbesc. VocaliD s-a extins de atunci la mărci comerciale și influenceri.
Vorbirea sintetică a parcurs un drum lung de-a lungul anilor. La doar nouă ani de la introducerea sa pe piață, Siri este cel mai vechi asistent virtual – dar în lumea aparatelor de vorbire, este un bebeluș.
Oamenii au încercat să sintetizeze vorbirea cel puțin din secolul al XVIII-lea, când un inventator austro-ungar a construit o replică brută a tractului vocal uman care putea articula fraze întregi (deși într-un monoton).
Tehnicile actuale de învățare automată pot modela vorbirea umană, completate cu pauze incomode și sunetul buzelor. Totuși, instruirea pe mii de eșantioane pe secundă este prohibitiv costisitoare pentru majoritatea sistemelor din lumea reală. Cercetătorii, inclusiv cei de la VocaliD, implementează continuu metode inovatoare și mai eficiente.
Dar chiar dacă decalajele rămase între vorbirea umană și cea sintetică se închid constant, prozodia cu adevărat realistă continuă să scape chiar și de cele mai sofisticate sisteme.
Poate că ceea ce lipsește este ca astfel de mașini nu doar să imite oamenii, ci și să simtă ca noi.