Programul DALL-E 2 de la OpenAI produce imagini fantastice cu aproape orice îți poți imagina: cum funcționează

de: Ozana Mazilu

07 04. 2022

În ianuarie 2021, compania OpenAI fondată de Elon Musk și susținută financiar de Microsoft și-a dezvăluit cel mai ambițios proiect de până acum, sistemul de învățare automată DALL-E.

Această inteligență artificială multimodală ingenioasă a fost capabilă să genereze imagini (deși, mai degrabă, de desene animate) pe baza atributelor descrise de un utilizator. Gândește-te la „o pisică făcută din sushi” sau „o radiografie a unui Capybara așezat într-o pădure”. Recent, compania a dezvăluit următoarea iterație a lui DALL-E, care are o rezoluție mai mare și o latență mai mică decât originalul.

Primul DALL-E ar putea genera imagini, precum și combina mai multe imagini într-un colaj, oferind unghiuri de perspectivă diferite. Poate chiar să deducă elemente ale unei imagini — cum ar fi efectele de umbră — din descriere.

„Spre deosebire de un motor de randare 3D, ale cărui intrări trebuie specificate fără ambiguitate și în detaliu complet, DALL·E este adesea capabil să „completeze spațiile libere” atunci când legenda implică faptul că imaginea trebuie să conțină un anumit detaliu care nu este menționat în mod explicit”, a spus echipa OpenAI în 2021.

DALL-E de la OpenAI nu poate fi folosit chiar de toată lumea

DALL-E nu a fost niciodată intenționat să fie un produs comercial și, prin urmare, a fost oarecum limitat în abilitățile sale, având în vedere concentrarea echipei OpenAI pe el ca instrument de cercetare. A fost, de asemenea, limitat în mod intenționat, ca sistemul să nu fie folosit pentru a genera dezinformare.

DALL-E 2, care utilizează sistemul de recunoaștere a imaginii CLIP al OpenAI, se bazează pe acele capacități de generare de imagini. Utilizatorii pot acum să selecteze și să editeze anumite zone ale imaginilor existente, să adauge sau să elimine elemente, să combine două imagini într-un singur colaj și să genereze variații ale unei imagini existente. CLIP-ul OpenAI a fost conceput pentru a privi o anumită imagine și a rezuma conținutul acesteia într-un mod pe care oamenii îl pot înțelege. Compania a inversat acest proces, construind o imagine din rezumatul său, în procesul cu noul sistem.

„DALL-E 1 tocmai a preluat abordarea noastră GPT-3 din limbaj și a aplicat-o pentru a produce o imagine: am comprimat imagini într-o serie de cuvinte și doar am învățat să prezicem ce urmează”, a declarat pentru Verge cercetătorul OpenAI, Prafulla Dhariwal.

Spre deosebire de prima, cu care se poate juca oricine pe site-ul OpenAI, această nouă versiune este în prezent disponibilă doar pentru testare de către parteneri verificați, care ei înșiși sunt limitați în ceea ce pot încărca sau genera cu programul.

Articole recomandate