Cercetătorii detectează “vorbirea tăcută” cu ajutorul unor electrozi și AI

Cercetătorii detectează “vorbirea tăcută” cu ajutorul unor electrozi și AI

Cercetătorii UC Berkeley declară că sunt primii care antrenează sisteme de inteligență artificială folosind cuvinte și senzori care colectează activitatea musculară.

Vorbirea silențioasă este detectată folosind electromiografia (EMG), cu electrozi așezați pe față și gât. Modelul se concentrează pe ceea ce cercetătorii numesc vocea digitală pentru a prezice cuvinte și a genera vorbire sintetică.

Cercetătorii consideră că metoda lor poate permite o serie de aplicații pentru persoanele care și-au pierdut capacitatea de a produce sunete și ar putea sprijini detectarea vorbirii pentru asistenții AI sau alte dispozitive care răspund la comenzile vocale.

AI își dă seama ce vorbești fără să te audă

“Vocea silențioasă digitală are o gamă largă de aplicații potențiale”, se arată în lucrarea echipei.

“De exemplu, ar putea fi folosită pentru a crea un dispozitiv similar cu o cască Bluetooth care permite oamenilor să poarte conversații telefonice fără a-i perturba pe cei din jur. Un astfel de dispozitiv ar putea fi, de asemenea, util în setări în care zgomotul de mediu este prea tare pentru a capta sunetele sau în care menținerea tăcerii este importantă”.

Un alt exemplu de AI care poate capta cuvinte dintr-o vorbire tăcută – AI care citește pe buze – poate alimenta instrumentele de supraveghere sau poate fi utilizat pentru persoanele cu deficiențe de auz.

Pentru predicția vorbirii lor silențioase, cercetătorii UC Berkeley au folosit o abordare “în care țintele de ieșire audio sunt transferate de la înregistrări vocalizate la înregistrări silențioase cu aceleași enunțuri”. Un decodor WaveNet este apoi folosit pentru a genera predicții audio de vorbire.

Comparativ cu o linie de bază instruită cu date EMG vocalizate, abordarea oferă o scădere de la 64% la 4% a ratelor de eroare ale cuvintelor în transcrierile de propoziții din cărți și o reducere a erorilor de 95% față de linia de bază.

Pentru a alimenta munca suplimentară în acest domeniu, cercetătorii au deschis un set de date EMG faciale de aproape 20 de ore.

O lucrare despre modelul intitulat “Vocea digitală a vorbirii tăcute” de David Gaddy și Dan Klein a primit premiul pentru cea mai bună lucrare la evenimentul Empirical Methods in Natural Language Processing (EMNLP) desfășurat online săptămâna trecută.

Compania Hugging Face a primit premiul pentru cea mai bună demonstrație din partea organizatorilor pentru munca desfășurată în biblioteca open source Transformers.

DĂ PLAY ȘI FII MAI INFORMAT DECÂT PRIETENII TĂI
Etichete: