Recunoașterea vocală e acum banală. Dar când a luat naștere?

TEHNOLOGIE, ȘTIINȚĂ & DIGITAL

O pereche de buze pictate cu atenție, cercei cu perle, un pulover albastru pe care-l îmbracă o domnișoară, muzică de sintetizator, un computer cu o unitate floppy și un afișaj monocrom. Bine ați venit în anii 1980.

La început, afișajul este gol, cu excepția unui cursor verde intermitent. Așteaptă să scrie cineva? Nu. Acest PC este diferit de calculatorul obișnuit. Când acele buze pictate cu grijă spun cuvântul „vorbind”, literele ajung pe ecran, ca prin magie. „Vorbesc”, spune ea, „iar cuvintele apar pe ecranul computerului”.

Această mică istorie a computerului apare într-un videoclip promoțional IBM care povestește atât despre cultura vremurilor, cât și despre tehnologie. Anul este 1986. IBM este încă regele nu numai al PC-urilor, ci și al tehnologiei în ansamblu, iar cu acest clip, Big Blue își arată eforturile timpurii într-un software de recunoaștere vocală.

ibm

Sistemul avea un vocabular care se întindea pe câteva mii de cuvinte și putea face distincția între cuvinte precum „right”, „write” și „wright”. „A fost nevoie de un model de limbaj puternic pentru a putea face acest lucru”, spune David Nahamoo, actualul responsabil cu tehnologia vorbirii la IBM Research. „La acea vreme, aceste PC-uri aveau resurse foarte mici, așa că aveam nevoie de hardware special pentru a rula algoritmii”.

„Vorbitul. E unul dintre cele mai firești lucruri pe care le facem. E și baza unui proiect remarcabil la IBM. Vorbesc, iar cuvintele mele apar pe ecranul computerului” – IBM în 1986

Fiecare computer experimental a fost încărcat cu patru carduri „Albert” personalizate – o trimitere către Albert Tangora, cel mai rapid dactilograf din lume la acea vreme – și aceste carduri au fost încărcate cu suficientă memorie pentru a stoca întregul model de recunoaștere a vorbirii, lăsând aparatul să caute cuvinte rostite în timp real.

Potrivit lui Nahamoo, sistemul ar putea învăța, de asemenea, să se adapteze la vocea unei persoane, rezultând o precizie sporită.

Sistemul va evolua, în cele din urmă, în primul produs IBM de recunoaștere a vorbirii adevărat: seria Speech Server, care a sosit în 1992. Ideea a fost de a ajuta companiile să accelereze dictarea. După cum știm cu toții, acest lucru nu a prins niciodată cu adevărat – cel puțin nu într-un mod semnificativ. Dar mai mult de 15 ani mai târziu, Siri a sosit.

Nici acesta nu a funcționat atât de bine, dar cel puțin a dus recunoașterea vocii în mainstream.

Problema este că sistemele de recunoaștere vocală nu sunt niciodată atât de eficiente pe cât ne dorim. În zilele noastre, ele sunt bune la dictare, dar vrem mai mult. Vrem să căutăm pe web cu comenzi vocale, iar Siri nu prea face asta. Deseori, el scoate la iveală puțin mai mult decât o listă lungă de link-uri, iar apoi este treaba noastră să cercetăm toate acestea și să ne dăm seama ce e folositor.

Foarte des, legăturile sunt inutile însă.

Marea provocare de astăzi, spune Nahamoo, este transpunerea întrebărilor în răspunsuri practice. Dacă îl întrebi pe Siri cum să ajungi imediat la cea mai apropiată farmacie deschisă, el ar trebui să îți ofere un plan de acțiune. De aceea, companii precum Google, Baidu, Microsoft și da, IBM, dublează învățarea automată – un domeniu al informaticii care încearcă să imite modul în care funcționează creierul uman.

Folosind astfel de metode, companiile pot fi capabile să proceseze mai bine limbajul natural și să te ajute să găsești exact ceea ce dorești sau chiar lucruri noi pe care nici nu știai că există.