Modelele AI încep să învețe punându-și singure întrebări: de ce „self-play” ar putea schimba tot
De ani buni, chiar și cele mai puternice modele de inteligență artificială au funcționat, în esență, ca niște imitații foarte bune: „mănâncă” munți de exemple create de oameni sau rezolvă exerciții pe care tot oamenii le-au formulat. Asta le face uimitoare la recunoaștere de tipare și la generare de text, cod sau imagini, dar le ține și într-o relație de dependență față de ce există deja. Dacă setul de date are goluri, modelul preia golurile. Dacă „temele” sunt limitate, progresul se lovește de tavan.
De aici vine fascinația pentru o idee care sună aproape banală, dar are consecințe mari: un model care învață mai „uman”, adică își găsește singur întrebările interesante și încearcă să le răspundă, fără să aștepte instrucțiuni de la un profesor. Un proiect realizat de cercetători de la Tsinghua University, Beijing Institute for General Artificial Intelligence (BIGAI) și Pennsylvania State University sugerează exact asta: un sistem care își generează singur provocări, le rezolvă, își verifică răspunsul și apoi folosește rezultatul pentru a se îmbunătăți.
Sistemul se numește Absolute Zero Reasoner (AZR) și pornește de la o observație practică: dacă vrei ca un AI să-și creeze propriile întrebări, ai nevoie și de un mod obiectiv de a spune dacă răspunsul e bun sau prost. În multe domenii (opinie, stil, interpretare), „bun” e discutabil. În programare și matematică, verificarea poate fi brutal de clară: rulezi codul și vezi dacă trece testele.
AZR folosește un model de limbaj în trei pași, într-o buclă de învățare. Mai întâi, modelul generează probleme de programare în Python care sunt dificile, dar solvabile. Apoi, același model încearcă să le rezolve. În final, sistemul verifică soluția rulând codul, iar succesul sau eșecul devine semnal de antrenare: modelul învață atât să pună întrebări mai bune (mai relevante, mai „curate” ca verificare), cât și să găsească soluții mai solide. Practic, modelul își construiește propriul „curriculum” și îl ajustează pe măsură ce devine mai capabil.
Partea importantă aici nu e doar că „face cod”. E faptul că programarea oferă un criteriu automat de adevăr. Când un model halucinează într-un eseu, uneori nu-ți dai seama imediat. Când halucinează într-o funcție care ar trebui să returneze o listă sortată, programul crapă sau dă rezultate greșite. AZR transformă această duritate a verificării într-un antrenor: nu are nevoie de un evaluator uman la fiecare pas, fiindcă lumea codului îi spune singură „da” sau „nu”.
De ce „self-play” sună a superinteligență și unde e, de fapt, cârligul
Cercetătorii din spatele proiectului compară această abordare cu felul în care învață oamenii: la început imiți, apoi începi să pui întrebări proprii și, în timp, poți depăși chiar și pe cei care te-au învățat. În AI, asta e o promisiune enormă, pentru că sugerează o ieșire din dependența de date curate, etichetate și scumpe. Dacă modelul își produce singur exercițiile și își verifică singur soluțiile, poți scala procesul aproape la infinit, cel puțin în domenii cu verificare clară.
„Self-play” nu e o noutate absolută: ideea a mai apărut în literatura de AI și a fost explorată, sub diverse forme, de cercetători care au lucrat pe curiozitate intrinsecă, învățare autonomă și sisteme care își cresc singure dificultatea. Diferența acum este combinația dintre modele mari de limbaj și o buclă de feedback ieftină (rularea codului), ceea ce face metoda mult mai ușor de aplicat pe scară mare. AZR mai are și un efect interesant: pe măsură ce modelul devine mai puternic, dificultatea problemelor pe care și le generează poate crește, ca o bandă de alergare care se accelerează automat.
Aici apare și „cârligul” real: dacă un sistem poate să-și creeze singur provocări din ce în ce mai avansate și să se autocorecteze, atunci, teoretic, poate ajunge să învețe lucruri pe care oamenii nu i le-au predat explicit. Unii cercetători văd în asta o cale către sisteme care depășesc nivelul de „copiat” și intră în zona de descoperire. Dar e important să nu sari direct la concluzia „gata, superinteligență”. În versiunea actuală, metoda funcționează excelent tocmai pentru că există un arbitru foarte clar: compilatorul și rularea codului.
Ce rezultate au raportat și de ce contează că sunt pe modele open-source
Echipa a testat metoda pe versiuni de 7 miliarde și 14 miliarde de parametri ale unui model open-source (Qwen), iar concluzia lor este că AZR a îmbunătățit semnificativ abilitățile de codare și raționare. Implicația este interesantă: nu vorbim doar despre „mai multe date”, ci despre un mod diferit de a produce date de antrenare și de a crește dificultatea fără curator uman.
Mai mult, se sugerează că, în anumite condiții, modelul antrenat astfel poate depăși modele care au primit date atent selectate de oameni. Asta, dacă se confirmă pe evaluări solide și repetabile, ar fi un semnal puternic că învățarea autonomă poate concura cu „curriculum-ul” tradițional. Pentru ecosistem, e și un mesaj politic: dacă poți face progrese mari pe modele open-source cu metode de self-play, nu mai depinzi complet de laboratoare care au acces la cele mai scumpe seturi de date și la cele mai închise infrastructuri.
Totuși, merită să păstrezi un filtru critic. „Depășește unele modele” poate însemna depășește pe anumite benchmarkuri, în anumite condiții, cu anumite setări. În AI, diferențele dintre „a învățat mai bine să rezolve testul” și „a învățat mai bine în general” sunt adesea subtile. Partea bună, însă, e că domeniul codării permite verificări mai clare decât multe alte arii: dacă un model scrie cod corect pe probleme variate, nu e doar un efect de stil, e competență funcțională.
Limitări și următorul pas: dincolo de cod, în lumea „agenților” care fac lucruri
Cea mai mare limitare, recunoscută chiar de cercetători, este că metoda se bazează pe sarcini ușor verificabile. Codul și matematica sunt perfecte pentru asta. Dar ce faci când sarcina e „caută pe web și încheie o rezervare”, „organizează un fișier Excel” sau „scrie un e-mail dificil”? Acolo verificarea devine mai ambiguă: ai nevoie de criterii, de teste, de evaluatori sau de simulări credibile ale lumii.
De aceea, una dintre direcțiile vehiculate este extinderea către „agentic AI”, adică modele care folosesc unelte, navighează interfețe și iau decizii în pași. Ca să păstrezi spiritul AZR, ar trebui să ai un mecanism care judecă dacă acțiunile agentului sunt corecte. Poți imagina un fel de „simulator” sau un set de reguli care verifică dacă agentul a urmat pașii potriviți. Dar aici apar riscuri: dacă verificatorul e imperfect, agentul poate învăța să „păcălească” verificarea, nu să rezolve problema. În cod, păcăleala e mai greu de susținut, fiindcă rezultatul final e executabil.
Dacă vrei să înțelegi de ce subiectul aprinde industria, uită-te la două presiuni care cresc simultan: datele de calitate devin mai scumpe și mai rare, iar așteptările pentru modele cresc. În acest context, metodele care generează singure antrenament, fără să depindă de oameni la fiecare pas, devin tentante. Dar ele cer o disciplină nouă: să construiești verificatoare robuste, să previi „gaming-ul” și să te asiguri că îmbunătățirea e reală, nu doar o optimizare a testelor.
În concluzie, „modele care învață punându-și singure întrebări” nu e doar o formulare catchy. E o schimbare de paradigmă: de la AI care absoarbe lumea ca un burete, la AI care își construiește singur traseul de învățare, măcar în domenii unde adevărul poate fi verificat automat. Dacă direcția asta se maturizează, o să vezi tot mai multe sisteme care nu doar răspund, ci experimentează, testează și se autocorectează. Iar atunci, discuția despre „copiat” versus „descoperire” o să devină mult mai incomodă — și mult mai interesantă.