23 aug. 2023 | 13:54

Noul traducător multimodal al Meta folosește un singur model pentru a vorbi 100 de limbi

ACTUALITATE
Noul traducător multimodal al Meta folosește un singur model pentru a vorbi 100 de limbi

Deși nu este tocmai pregătit să inaugureze viitorul Doolittle pe care l-am așteptat cu toții, metodele moderne de traducere AI se dovedesc mai mult decât suficiente pentru a transforma cu exactitate cele aproximativ 6.500 de sisteme de comunicare scrise și vorbite ale umanității.

Problema este că fiecare dintre aceste modele tinde să facă doar una sau două sarcini foarte bine – traduci și convertești text în vorbire, vorbire în text sau între oricare dintre cele două seturi.

Ce poate să facă SeamlessM4T de la Meta

Acesta este un proces intensiv de calcul, așa că Meta a dezvoltat un singur model care poate face totul. SeamlessM4T este „un model de bază multilingv și multitask care traduce și transcrie fără probleme prin vorbire și text”, se arată pe blogul Meta. Poate traduce între oricare dintre cele aproape 100 de limbi pentru funcții de vorbire în text și text în text, vorbire în vorbire și text în vorbire, acceptă aceleași limbi ca intrări și le emite în oricare dintre alte 36 de limbi, inclusiv engleza.

În postarea pe blog, echipa de cercetare a Meta notează că SeamlessM4T „îmbunătățește semnificativ performanța pentru limbile cu resurse reduse și medii pe care le suportăm”, menținând în același timp „performanțe puternice în limbile cu resurse ridicate, cum ar fi engleza, spaniolă și germana”.

Meta a construit SeamlessM4T din arhitectura de model UnY multitask bazată pe PyTorch, care realizează deja în mod nativ diferitele traduceri modale, precum și recunoașterea automată a vorbirii. Utilizează sistemul BERT 2.0 pentru codificarea audio.

Meta a organizat, de asemenea, un corpus paralel masiv de vorbire în vorbire și vorbire în text, denumit SeamlessAlign. Compania a extras „zeci de miliarde de propoziții” și „patru milioane de ore” de vorbire din arhivele disponibile public pentru a „alinia automat peste 443.000 de ore de vorbire cu textele și pentru a crea aproximativ 29.000 de ore de aliniere de la vorbire la vorbire”. Când a fost testat, SeamlessM4T și-a depășit predecesorul (de ultimă generație) față de zgomotele de fundal și variațiile stilului difuzorului cu 37% și, respectiv, 48%.