De ce oamenii nu pot folosi procesarea limbajului natural pentru a vorbi cu animalele: ce demonstrează cercetătorii
Vorbim aproximativ 6.500 de limbi și, cu toate astea, nu putem vorbi cu animalele.
Ne întrebăm încă din antichitate ce se întâmplă în mintea animalelor. Talentul Dr. Doolittle era departe de a fi nou când a fost publicat pentru prima dată în 1920. Literatura greco-romană are animale care vorbesc, scriitorii din China din epoca Zhanguo au atribuit în mod obișnuit limbajul anumitor specii de animale și sunt, de asemenea, răspândite în tradițiile indiene, egiptene, ebraice și native americane.
Chiar și astăzi, cultura occidentală populară se joacă cu ideea de animale care vorbesc, deși adesea printr-o lentilă de vorbire împuternicită de tehnologie, mai degrabă decât prin forța supranaturală. Delfinii de la Seaquest DSV și Johnny Mnemonic au comunicat cu contemporanii lor bipezi prin dispozitive avansate de traducere, la fel ca Dug the dog din Up.
Avem deja sisteme de învățare automată și procesoare de limbaj natural care pot traduce vorbirea umană în orice număr de limbi existente, iar adaptarea acestui proces pentru a converti apelurile animalelor în semnale interpretabile de om nu pare atât de grea. Cu toate acestea, se dovedește că avem mai multă muncă de făcut înainte de a putea conversa cu ființele necuvântătoare.
De ce nu avem încă un limbaj prin care să comunicăm cu animalele
„Toate ființele vii comunică”, a susținut o echipă interdisciplinară de cercetători în 2018, în lucrarea Despre înțelegerea naturii și evoluției cogniției sociale: o nevoie pentru studiul comunicării.
„Comunicarea implică o acțiune sau o caracteristică a unui individ care influențează comportamentul, tendința comportamentală sau fiziologia a cel puțin unui alt individ într-un mod de obicei adaptabil la ambele”.
De la microbi, ciuperci și plante pe scara evolutivă, știința nu a găsit încă un organism care să existe într-o izolare atât de extremă încât să nu aibă un mijloc natural de comunicare cu lumea din jurul său. Dar ar trebui să fim clari că „comunicarea” și „limbajul” sunt două lucruri foarte diferite.
„Niciun alt sistem natural de comunicare nu este ca limbajul uman”, argumentează Societatea de Lingvistică din America.
Limbajul ne permite să ne exprimăm gândurile interioare și să transmitem informații, precum și să le cerem.
„Spre deosebire de orice alt sistem de comunicare cu animale, acesta conține o expresie pentru negație – ceea ce nu este cazul. Sistemele de comunicare cu animale, în contrast, au de obicei cel mult câteva zeci de apeluri distincte și sunt folosite doar pentru a comunica probleme imediate, cum ar fi hrana, pericolul, amenințarea sau reconcilierea”.
Asta nu înseamnă că animalele de companie nu ne înțeleg.
„Știm că câinii și pisicile pot răspunde cu acuratețe la o gamă largă de cuvinte umane atunci când au experiență anterioară cu acele cuvinte și rezultate relevante”, a declarat pentru Engadget Dr. Monique Udell, director al Laboratorului de interacțiune om-animal de la Oregon State University.
„În multe cazuri, aceste asocieri sunt învățate prin condiționare de bază”, a spus dr. Udell – ca atunci când strigăm „cina” chiar înainte de a pune boluri cu mâncare.
Rămâne de văzut dacă câinii și pisicile noastre înțeleg sau nu ce înseamnă „cina” în afara răspunsului imediat pavlovian.
„Știm că cel puțin unii câini au reușit să învețe să răspundă la peste o mie de cuvinte umane (etichete pentru obiecte) cu niveluri ridicate de acuratețe”, a spus dr. Udell.
„În prezent, câinii dețin recordul printre speciile de animale non-umane pentru că sunt capabili să potrivească cuvintele rostite ale omului cu obiecte sau acțiuni în mod fiabil”, dar este „dificil de știut cu siguranță în ce măsură câinii înțeleg intenția din spatele cuvintelor sau acțiunilor noastre”.
Dr. Udell a continuat: „Acest lucru se datorează faptului că atunci când măsurăm înțelegerea unui stimul de către un câine sau o pisică, cum ar fi un cuvânt, de obicei o facem pe baza comportamentului lor.” Puteți învăța un câine să stea atât cu comenzi în engleză, cât și în germană, dar „dacă un câine răspunde la fel la cuvântul „stați” în engleză și în germană, probabil că cea mai simplă explicație – cu cele mai puține presupuneri – este că am învățat că atunci când stau în prezența oricărui cuvânt, atunci există o consecință plăcută”.
Programarea în limbaj natural (NLP) este ramura AI care permite computerelor și modelelor algoritmice să interpreteze textul și vorbirea, inclusiv intenția vorbitorului. Combină lingvistica computațională, care modelează sintaxa, gramatica și structura unei limbi, și modelele de învățare automată, care „extrag, clasifică și etichetează automat elemente de text și date vocale și apoi atribuie o probabilitate statistică fiecărui sens posibil al acestor elemente”, conform IBM.
NLP susține funcționalitatea fiecărui asistent digital de pe piață. Practic, de fiecare dată când vorbești la un dispozitiv „inteligent”, NLP traduce cuvintele tale în semnale ușor de înțeles de mașină și invers. Domeniul cercetării NLP a suferit o evoluție semnificativă în ultimii ani, deoarece sistemele sale de bază au migrat de la rețelele neuronale recurente și convolute mai vechi către arhitectura Google Transformer, care crește foarte mult eficiența antrenamentului.
Dr. Noah D. Goodman, profesor asociat de psihologie, informatică și lingvistică la Universitatea Stanford, a declarat pentru Engadget că, cu RNN-uri, „va trebui să mergeți pas cu pas sau ca cuvânt cu cuvânt prin date și apoi faceți același lucru înapoi”. În contrast, cu un transformator, „practic iei întregul șir de cuvinte și le împingi prin rețea în același timp”.
„Contează cu adevărat să facem acest antrenament mai eficient. De departe, cel mai important lucru este că fac posibil antrenamentul eficient și, prin urmare, antrenează modele mult mai mari cu mult mai multe date”, a continuat Dr. Goodman.
În timp ce sistemele de comunicare ale multor specii au fost studiate în ultimii ani – în special cetacee precum balenele și delfinii, dar și balena sudică, pentru calitățile potențial sintactice ale cântecului său, și sistemul de avertizare comunal al prădătorilor maimuțelor vervet – niciunul nu a arătat gradul pur de complexitate ca chemarea familiei aviare Paridae: năicile, țâții și țâțeii.
Dr. Jeffrey Lucas, profesor la departamentul de Științe Biologice de la Universitatea Purdue, a declarat pentru Engadget că apelul Paridae „este unul dintre cele mai complicate sisteme vocale pe care le cunoaștem. La sfârșitul zilei, ceea ce arată numărul voluminos de cercetări din domeniu este că este îngrozitor de complicat, iar problema cu lucrările este că subinterpretează extrem de complicat apelurile, de fapt.”
Aceștia trăiesc adesea în stoluri heterospecifice, complexe din punct de vedere social, grupări mixte care includ mai multe specii de păsări cântătoare și ciocănitoare. Complexitatea sistemului social al păsărilor este corelată cu o diversitate crescută a sistemelor de comunicații, a spus dr. Lucas: „O parte din motivul pentru care există această corelație este că, dacă aveți un sistem social complex care este multidimensional, atunci trebuie să transmiteți o varietate de tipuri diferite de informații în contexte diferite. În lumea păsărilor, ei trebuie să-și apere teritoriul, să vorbească despre hrană, să se integreze în sistemul social și să rezolve problemele de împerechere”.
Apelul naicătului constă din cel puțin șase note distincte stabilite într-o structură vocală deschisă, ceea ce este atât de rar în sistemele de comunicare non-umane, cât și motivul complexității apelului naicătului. Un sistem vocal deschis înseamnă că „înregistrarea sporită a apelurilor va dezvălui continuu apeluri cu compoziții distincte de tip notă”, a explicat studiul din 2012, Legătura dintre complexitatea socială și complexitatea vocală: o perspectivă egală.
„Această natură deschisă este una dintre principalele trăsături pe care le împărtășește sunetul păsării cu limbajul uman și una dintre principalele diferențe dintre chemarea sa și repertoriile limitate de cântece ale majorității speciilor de păsări cântătoare”.
Pregătirea modelelor lingvistice nu este doar o chestiune de a introduce cantități mari de date. Când antrenați un model pentru a traduce o limbă necunoscută în ceea ce vorbiți, trebuie să aveți cel puțin o înțelegere rudimentară a modului în care cele două limbi se corelează una cu cealaltă, astfel încât textul tradus să păstreze intenția corectă a vorbitorului.
„Cel mai puternic tip de date pe care l-am putea avea este ceea ce se numește un corpus paralel”, a explicat dr. Goodman.
În acest caz, ar trebui, pur și simplu, să mapați între anumite cuvinte, simboluri și foneme din fiecare limbă – să vă dați seama ce înseamnă „râu” sau „grâu” în fiecare și să construiți de acolo. Fără acel artefact de traducere perfectă, atât timp cât ai corpuri mari de date pentru ambele limbi, „este încă posibil să înveți o traducere între limbi, dar depinde destul de esențial de ideea că tipul de structură conceptuală latentă”, spune dr. Goodman, care presupune că ambele definiții ale culturii pentru „grâu” sunt în general echivalente.
Goodman indică perechile de cuvinte „bărbat și femeie” și „rege și regina” în engleză: „Structura sau geometria acelei relații ne așteptăm în limba engleză, dacă am traduce în maghiară, ne-am aștepta, de asemenea, ca acele patru concepte să stea într-o relație similară”. „Atunci, în mod efectiv, modul în care vom învăța o traducere acum este prin a învăța să traducem într-un mod care să păstreze cât mai mult posibil structura acelui spațiu conceptual”.
Având un corp mare de date cu care să lucrați în această situație, permite, de asemenea, utilizarea tehnicilor de învățare pentru a „extrage spațiul conceptual latent”, a spus dr. Goodman, deși această metodă necesită mai mult resurse și mai puțin eficiență. Cu toate acestea, dacă tot ceea ce aveți este un corpus mare în doar una dintre limbi, în general nu aveți noroc.
„Pentru majoritatea limbilor umane presupunem că conceptele de cvartet sunt cam asemănătoare, cum ar fi, poate că nu au „rege și regina”, dar cu siguranță au „bărbat și femeie”, a continuat Dr. Goodman. „Dar cred că pentru comunicarea cu animalele, nu putem presupune că delfinii au un concept de „rege și regină” sau dacă au „bărbați și femei”. Nu știu, poate, poate nu”.
Și fără acea aliniere conceptuală rudimentară de la care să lucrezi, discernând contextul și intenția chemării unui animal – cu atât mai puțin, descifrarea sintaxei, gramaticii și semanticii sistemului de comunicare de bază – devine mult mai dificilă.
Practic, dacă puteți obține date multimodale care oferă context pentru apelul animal înregistrat — condițiile de mediu, ora zilei sau anului, prezența speciilor de pradă sau de prădători etc — puteți „transpune” datele limbajului în mediul fizic. De acolo puteți „presupune că engleza se încadrează în mediul fizic în același mod în care această nouă limbă ciudată se încadrează în mediul fizic” și să o folosiți ca un fel de punte între limbi.
Din păcate, provocarea de a traduce strigăturile păsărilor în engleză (sau în orice altă limbă umană) se va încadra complet în a patra categorie. Aceasta înseamnă că vom avea nevoie de mai multe date și de o mulțime de tipuri diferite de date, pe măsură ce continuăm să ne dezvoltăm înțelegerea de bază a structurilor acestor apeluri de la zero. Unele dintre aceste eforturi sunt deja în curs de dezvoltare de către cercetători.