Microsoft lansează AI-ul care poate face imaginile să vorbească, cu rezultate straniu de realiste

de: Cojocaru Cristian
21 04. 2024

Microsoft a făcut un pas semnificativ în domeniul inteligenței artificiale cu lansarea modelului AI VASA-1, capabil să animeze imagini statice în videoclipuri surprinzător de realiste. Această tehnologie inovatoare permite transformarea oricărui portret, fie că este fotorealist, cartoon sau lucrare de artă, într-un videoclip în care subiectul vorbește sincronizat cu un clip audio preexistent.

Inovație și aplicații

Cercetătorii Microsoft au prezentat tehnologia săptămâna trecută, demonstrând capacitatea AI-ului de a crea videoclipuri realiste. Într-unul dintre videoclipurile demonstrative, faimoasa Mona Lisa a fost animată recitând un rap comic rostit de actrița Anne Hathaway. Astfel de producții, pe lângă aspectul lor divertisant, ridică și unele preocupări legate de realismul lor dezarmant.

Microsoft sugerează că această tehnologie are potențialul de a fi folosită în scopuri educative sau pentru „îmbunătățirea accesibilității pentru persoanele cu dificultăți de comunicare”, și ar putea chiar să ajute la crearea de companioni virtuali pentru oameni. Totuși, există riscuri evidente asociate abuzului acestei tehnologii, cum ar fi utilizarea ei pentru a impersona persoane reale.

Preocupări etice și măsuri de precauție

Conștienți de potențialele implicații negative, cercetătorii Microsoft subliniază că sunt împotriva oricărei utilizări a tehnologiei pentru crearea de conținut înșelător sau dăunător. Similar cu abordarea partenerului său OpenAI în gestionarea instrumentului de video generat prin AI, Sora, Microsoft nu plănuiește să lanseze modelul VASA-1 publicului larg imediat. În schimb, tehnologia va fi disponibilă inițial doar pentru anumiți utilizatori profesioniști și profesori de securitate cibernetică, în scopuri de testare.

Tehnologia din spatele VASA-1

Modelul AI VASA-1 a fost antrenat utilizând numeroase videoclipuri cu persoane vorbind, fiind proiectat să recunoască mișcările naturale ale feței și ale capului. Acesta include sincronizarea buzelor, expresii faciale diverse, direcția privirii și clipirea. Rezultatul este un videoclip mult mai realist atunci când VASA-1 animează o fotografie statică. Chiar și așa, există semne subtile care trădează originea generată de mașină a videoclipurilor, cum ar fi clipitul infrecvent și mișcările exagerate ale sprâncenelor.

Perspectiva viitorului

Microsoft este optimist că modelul său „depășește semnificativ” alte instrumente similare și „deschide calea pentru interacțiuni în timp real cu avatare realiste care imită comportamentele conversaționale umane”. Prin introducerea VASA-1, Microsoft nu doar că redefinește interacțiunile digitale, dar și stabilește un nou standard pentru responsabilitatea în utilizarea inteligenței artificiale.