Inteligența artificială și criza cunoștințelor: ce spune Elon Musk despre viitorul datelor

de: Ozana Mazilu
10 01. 2025

Companiile de inteligență artificială (AI) se confruntă cu o provocare majoră: epuizarea surselor de date necesare pentru antrenarea noilor modele. Elon Musk, una dintre cele mai influente figuri din tehnologie, a declarat recent că „suma cumulată a cunoștințelor umane a fost epuizată” în acest proces, ridicând semne de întrebare cu privire la viitorul tehnologiilor AI. Potrivit lui Musk, soluția ar putea fi utilizarea datelor sintetice – materiale generate de inteligența artificială însăși – un proces care, deși promițător, ridică și numeroase provocări.

De ce au rămas companiile fără date pentru AI?

Modelele de inteligență artificială, cum ar fi GPT-4, sunt antrenate pe cantități uriașe de date colectate de pe internet. Aceste date includ articole, pagini web, cărți și alte tipuri de conținut public, iar scopul este de a permite modelelor să identifice tipare și să genereze răspunsuri coerente. Însă, odată cu dezvoltarea rapidă a AI, cantitatea de materiale relevante și de înaltă calitate s-a diminuat semnificativ.

Musk a explicat că lipsa de date noi reprezintă un obstacol major pentru crearea și îmbunătățirea noilor modele. Într-un interviu transmis live pe platforma sa, X (fosta Twitter), el a menționat că singura opțiune viabilă rămâne utilizarea datelor sintetice. Acestea sunt create de alte modele de inteligență artificială, care generează conținut original pe baza cunoștințelor existente. Cu toate acestea, acest proces nu este lipsit de riscuri, deoarece AI-ul poate genera rezultate inexacte sau irelevante, cunoscute sub termenul de „halucinații”.

Utilizarea datelor sintetice: avantaje și riscuri

Companii precum Meta, Microsoft, Google și OpenAI au început deja să experimenteze utilizarea datelor sintetice pentru antrenarea modelelor lor de AI. De exemplu, Meta a folosit date sintetice pentru modelul său Llama, iar Microsoft a aplicat aceeași strategie pentru modelul Phi-4. Acest tip de date permite modelelor să se îmbunătățească chiar și în absența unor surse noi de informații.

Cu toate acestea, utilizarea datelor sintetice ridică o serie de întrebări. Una dintre cele mai mari provocări este calitatea materialelor generate. Musk a avertizat că halucinațiile modelelor AI complică procesul, făcând dificilă diferențierea între un răspuns corect și unul eronat. De asemenea, există riscul ca datele sintetice să introducă erori sistematice, care să afecteze performanța și încrederea în aceste tehnologii.

Un alt aspect delicat este legat de drepturile de autor și etica utilizării datelor. OpenAI a recunoscut că multe dintre modelele sale, inclusiv ChatGPT, au fost antrenate pe materiale protejate prin drepturi de autor. Acest lucru a dus la conflicte juridice și la cereri de compensații din partea industriilor creative și a editorilor.

Ce înseamnă această criză pentru viitorul AI?

Epuizarea datelor de antrenare reprezintă un punct de cotitură pentru domeniul inteligenței artificiale. Pe de o parte, utilizarea datelor sintetice poate deschide noi posibilități, permițând continuarea dezvoltării tehnologice într-un mod sustenabil. Pe de altă parte, riscurile asociate acestui proces subliniază importanța creării unor standarde riguroase pentru evaluarea calității și eticii datelor sintetice.

Declarațiile lui Elon Musk reflectă preocupări reale legate de viitorul AI. Firmele din industrie vor trebui să găsească un echilibru între inovație și responsabilitate, pentru a evita potențialele capcane ale utilizării datelor generate artificial. De asemenea, este esențial să se ia în considerare impactul asupra societății, de la corectitudinea algoritmilor până la protecția proprietății intelectuale.