Cel mai ambițios proiect de la Facebook: traduce în timp real un număr record de limbi
Indiferent dacă te conectezi din SUA, Brazilia sau Franța, Facebook poate traduce practic orice conținut scris publicat pe platforma sa în limba locală utilizând traducerea automată.
De fapt, Facebook furnizează zilnic aproximativ 20 de miliarde de traduceri numai pentru fluxul de știri. Cu toate acestea, aceste sisteme folosesc de obicei engleza ca pas intermediar – adică traducerea din chineză în franceză merge, de fapt, din chineză în engleză și apoi în franceză. Acest lucru se face deoarece seturile de date ale traducerilor către și din limba engleză sunt masive și disponibile pe scară largă, dar punerea limbii engleze la mijloc reduce precizia generală a traducerii, în timp ce face întregul proces mai complex și greoi decât trebuie.
De aceea, Facebook AI a dezvoltat un nou model MT care poate traduce bidirecțional direct între două limbi (din chineză în franceză și din franceză în chineză) fără a folosi vreodată engleza ca o punte – și care depășește modelul centrat în engleză cu 10 puncte pe valorile BLEU.
„Provocarea majoră este într-adevăr, cum luăm sistemele de traducere pe care le avem și apoi să răspundem de fapt cererii oamenilor din întreaga lume”, a declarat pentru Engadget Angela Fan, asociat de cercetare la Facebook AI. „Așadar, traduceți în toate limbile și în toate direcțiile pe care le doriți. De exemplu, există o mulțime de regiuni în lume în care oamenii vorbesc mai multe limbi, dintre care niciuna nu este engleză, dar sistemele de traducere existente se bazează în mare măsură pe date numai în limba engleză”, adaugă ea. Dintre miliardele de postări publicate zilnic în 160 de limbi pe platforma Facebook, două treimi se află într-o altă limbă decât engleza, a mai menționat ea.
Cum funcționează sistemul AI al platformei
Denumit M2M-100, Facebook susține că este primul model de traducere automată multilingvă (MMT) care poate traduce direct înainte și înapoi între orice pereche dintr-un set de 100 de limbi. În total, FBAI a construit un set de date enorm format din 7,5 miliarde de propoziții pentru 100 de limbi. Folosind acest lucru, echipa de cercetare a instruit un model de traducere universal cu peste 15 miliarde de parametri „care captează informații din limbi corelate și reflectă un script mai diversificat de limbi și morfologie”, potrivit unei postări pe blogul Facebook.
Pentru a face acest lucru, Facebook a trebuit să colecteze o mulțime de date disponibile publicului din întreaga lume, folosind o varietate de tehnici noi. „Multe dintre acestea se bazează într-adevăr pe munca pe care am făcut-o de mulți ani la cercetarea Facebook, care sunt ca toate piesele Lego diferite pe care le-am cam pus împreună pentru a construi sistemul astăzi”, a explicat Fan.
Pentru început, echipa a folosit CommonCrawl, care menține un depozit deschis de date cu crawlere web, pentru a colecta exemple de text de pe web. Apoi s-au apucat să identifice limba în care se află textul folosind FastText, un sistem de clasificare a textului dezvoltat și deschis de Facebook cu câțiva ani în urmă. „Privește practic niște teste și încearcă să decidă în ce limbă este scris”, a spus Fan. „Așadar, împărțim o grămadă de texte de pe web în toate aceste limbi diferite și apoi scopul nostru este să identificăm propoziții”.
Traducătorul Facebook, mai eficient decât cel uman
„În mod tradițional, oamenii folosesc traducători umani pentru a crea date de traducere”, a continuat ea. „Acest lucru este dificil la scară largă, deoarece este greu, de exemplu, să găsești pe cineva care vorbește engleză și tamilă, dar este și mai greu să găsești pe cineva care vorbește franceză și tamilă împreună, deoarece traducerea non-engleză este încă un domeniu care trebuie îmbunătățit”.
Pentru a extrage datele necesare la scară largă, echipa Fan s-a bazat foarte mult pe sistemul LASER. „Citește propoziții, preia textul și creează o reprezentare matematică a textului respectiv, astfel încât propozițiile care au aceeași semnificație să mapeze același gând”, a spus ea. „Deci, dacă am o propoziție în chineză și franceză și spun același lucru, se vor suprapune – ca o diagramă Venn – zona care se suprapune este genul de text pe care credem că sunt propoziții aliniate”.
Desigur, nu toate limbile au o cantitate mare de conținut scris disponibil pe internet. În aceste situații, echipa Fan a apelat la date monolingve, care sunt doar date scrise într-o singură limbă. Folosind exemplul din chineză în franceză, Fan a explicat – „Deci, dacă scopul meu este să traduc din chineză în franceză, dar, dintr-un anumit motiv, nu obțin o calitate bună, atunci voi încerca să îmbunătățesc acest lucru luând texte monolingve în franceză. Și ceea ce fac este să antrenez inversul sistemului: trec de la franceză la chineză. Îmi iau toată franceza, de exemplu, din Wikipedia, și o traduc în chineză”.
Facebook vrea să îmbunătățească acest sistem
Rămâne de văzut dacă acest sistem va fi capabil să traducă fără pierderi între cele 6200 de limbi vorbite din lume. Fan notează că succesul final al acestui proiect depinde de cantitatea de resurse pe care AI le poate folosi. Pentru limbile majore precum franceza, chineza, germana, spaniola și hindi, aceste resurse sunt vaste. „Oamenii scriu tone de text pe web în aceste limbi”, a remarcat Fan. „Au fost într-adevăr capabili să ajute o mulțime de date, iar modelele noastre pot folosi aceste date pentru a se îmbunătăți”.
„Personal identific multe domenii în care s-ar putea să avem nevoie de îmbunătățiri pentru limbile cu resurse foarte scăzute”, a continuat ea. „Pentru limbile africane, suntem destul de buni la swahili și afrikaans, am putea îmbunătăți mult limbile precum zulu, iar aceste limbi au provocări suplimentare de cercetare pe care trebuie să le confruntăm”.
Facebook lansează setul de date, modelul, instruirea și setările de evaluare ca sursă deschisă comunității de cercetare pentru a ajuta la stimularea progreselor ulterioare. De asemenea, compania intenționează să dezvolte sistemul în mod independent și, în cele din urmă, să folosească tehnologia în operațiunile sale zilnice.