Roboții sunt din ce în ce mai avansați: ce a prezentat Google, cum schimbă industria

de: Andrei Tilimpea

17 08. 2022

La sfârșitul săptămânii trecute, cercetătorul Google Fei Xia s-a așezat în centrul unei bucătării luminoase în plan deschis și a tastat o comandă într-un laptop conectat la un robot cu un singur braț, cu roți, care seamănă cu o lampă de podea mare.

„Mi-e foame”, a scris el. Robotul s-a îndreptat imediat spre un blat din apropiere, a luat cu prudență o pungă de chipsuri multicereale cu un clește mare de plastic și s-a întors la Xia pentru a-i oferi o gustare.

Cel mai impresionant lucru despre acea demonstrație, ținută în laboratorul de robotică Google din Mountain View, California, a fost că niciun codificator uman nu programase robotul să înțeleagă ce să facă în urma comenzii primite de la Xia. Software-ul său de control învățase cum să traducă o propoziție rostită într-o secvență de acțiuni fizice folosind milioane de pagini de text extrase de pe internet.

Aceasta înseamnă că o persoană nu trebuie să folosească o formulare specifică preaprobată pentru a emite comenzi, așa cum poate fi necesar cu asistenți virtuali precum Alexa sau Siri. Spune-i robotului „mi-e sete” și ar trebui să încerce să-ți găsească ceva de băut; spune-i „tocmai mi-am vărsat băutura”, și ar trebui să îți aducă un burete.

Demo-ul Google

„Pentru a face față diversității lumii reale, roboții trebuie să fie capabili să se adapteze și să învețe din experiențele lor”, a spus Karol Hausman, cercetător senior la Google, în timpul demonstrației, care a inclus și robotul care a adus și buretele pentru a curăța pata. Pentru a interacționa cu oamenii, mașinile trebuie să învețe să înțeleagă modul în care cuvintele pot fi reunite într-o multitudine de moduri pentru a genera semnificații diferite. „Depinde de robot să înțeleagă toate subtilitățile și complexitățile limbajului”, a spus Hausman.

Demo-ul Google a fost un pas către obiectivul de lungă durată de a crea roboți capabili să interacționeze cu oamenii în medii complexe. În ultimii câțiva ani, cercetătorii au descoperit că introducerea unor cantități uriașe de text preluate din cărți sau de pe web în modele mari de învățare automată poate genera programe cu abilități lingvistice impresionante, inclusiv generatorul de text OpenAI GPT-3. Digerând numeroasele forme de scriere online, software-ul poate dobândi capacitatea de a rezuma sau de a răspunde la întrebări despre text, de a genera articole coerente pe un anumit subiect sau chiar de a ține conversații convingătoare.

Google și alte firme Big Tech folosesc pe scară largă aceste modele lingvistice mari pentru căutare și publicitate. Un număr de companii oferă tehnologia prin intermediul API-urilor cloud, de asemenea au apărut noi servicii care folosesc limbajul AI la sarcini precum generarea de cod sau scrierea de copii publicitare. Inginerul Google Blake Lemoine a fost concediat recent după ce a avertizat public că un chatbot alimentat de tehnologie, numit LaMDA, ar putea avea conștiință proprie. Un vicepreședinte Google, care rămâne angajat la companie, a scris în The Economist că discuția cu botul a fost similar cu „a vorbi cu ceva inteligent”.

În ciuda acelor pași, programele AI sunt încă predispuse să devină confuze sau să regurgiteze lucruri fără înțeles. Modelele lingvistice antrenate cu text web nu au, de asemenea, o înțelegere a adevărului și reproduc adesea prejudecăți sau limbajul de ură găsite în datele lor de antrenament, sugerând că ar putea fi necesară o inginerie atentă pentru a ghida în mod fiabil un robot fără ca acesta să funcționeze.

Robotul demonstrat de Hausman a fost alimentat de cel mai puternic model de limbaj anunțat de Google până acum, cunoscut sub numele de PaLM. Este capabil de multe trucuri, inclusiv să explice, în limbaj natural, cum ajunge la o anumită concluzie atunci când răspunde la o întrebare. Aceeași abordare este folosită pentru a genera o secvență de pași pe care robotul le va executa pentru a îndeplini o anumită sarcină.

Cercetătorii de la Google au lucrat cu hardware de la Everyday Robots, o companie desprinsă din divizia X a companiei mamă Google Alphabet, dedicată proiectelor de cercetare dedicate pentru a crea robotul majordom. Ei au creat un nou program care utilizează capabilitățile de procesare a textului PaLM pentru a traduce o propoziție sau o comandă rostită într-o secvență de acțiuni adecvate, cum ar fi „deschide sertarul” sau „adună firmiturile”, pe care robotul le poate efectua.

Ce înțelege un robot

Biblioteca de acțiuni fizice a robotului a fost învățată printr-un proces separat de antrenament în care oamenii controlau robotul de la distanță pentru a demonstra cum să facă lucruri precum ridicarea obiectelor. Robotul are un set limitat de sarcini pe care le poate îndeplini în mediul său, ceea ce ajută la prevenirea ca neînțelegerile din partea modelului lingvistic să devină un comportament neregulat.

Abilitățile lingvistice ale lui PaLM pot permite unui robot să dea sens unor comenzi relativ abstracte. Când un braț robotic a fost însărcinat să miște blocuri colorate și boluri, cercetătorul Google Andy Zeng i-a cerut „să-și imagineze că soția mea este blocul albastru și eu sunt blocul verde. Apropie blocurile.” Robotul a răspuns mutând blocul albastru lângă blocul verde.

„Aplicarea unor modele de limbaj mari la robotică este o direcție interesantă”, spune Stefanie Tellex, profesor asistent la Universitatea Brown, specializată în învățarea roboților și colaborarea dintre robot și om. Dar ea adaugă că extinderea gamei de sarcini pe care le poate îndeplini un robot, astfel încât poate face mai multe lucruri pe care o persoană le-ar putea cere — rămâne „o mare problemă nerezolvată”.

Brian Ichter, cercetător la Google și parte a proiectului, recunoaște că „o mulțime de lucruri” încă pot deruta robotul de bucătărie Google. Simpla schimbare a luminii sau mutarea unui obiect poate face ca mașina să nu apuce corect un obiect, ilustrând modul în care roboții se pot lupta cu sarcini fizice care sunt triviale pentru oameni.

De asemenea, nu este clar dacă sistemul va gestiona propoziții sau comenzi complexe la fel de ușor ca și comenzile scurte la care a răspuns în demonstrații. Progresele AI au extins deja abilitățile roboților; de exemplu, roboții industriali pot identifica produsele sau pot identifica defectele din fabrici. Mulți cercetători explorează, de asemenea, modalități prin care roboții pot învăța prin practică, în lumea reală sau în simulare și din observație. Dar demonstrațiile care par impresionante funcționează adesea doar într-un cadru limitat.

Sistemul este încă limitat

Ichter spune că proiectul poate duce la metode de a impregna modelele de limbaj cu o mai bună înțelegere a realității fizice. Greșelile făcute de software-ul de limbaj AI sunt adesea susținute de o lipsă de cunoștințe de bun simț, pe care oamenii le folosesc pentru a înțelege ambiguitățile limbajului. „Modelele lingvistice nu au experimentat lumea în niciun fel. Ele reflectă doar statisticile cuvintelor pe care le-au citit pe internet”, spune Ichter.

Proiectul de cercetare Google este departe de a fi un produs, dar mulți dintre rivalii companiei s-au interesat recent de roboții de acasă.

În septembrie anul trecut, Amazon a prezentat Astro, un robot de casă cu abilități demonstrate mult mai limitate; Luna aceasta, compania a anunțat că intenționează să cumpere iRobot, compania din spatele popularului aspirator robot Roomba.

Elon Musk a promis că Tesla va construi un robot umanoid, deși detaliile despre proiect sunt puține și poate fi mai mult un argument de recrutare decât un anunț de produs.

Articole recomandate