Google anunță TurboQuant: tehnologia care reduce de 6 ori memoria necesară pentru AI și ar putea schimba regulile jocului

Google anunță TurboQuant: tehnologia care reduce de 6 ori memoria necesară pentru AI și ar putea schimba regulile jocului
Ce este TurboQuant, de la Google / Foto: Profimedia (imagine cu scop ilustrativ)

Inteligența artificială a ajuns într-un punct în care nu mai duce lipsă de idei sau modele, ci de resurse. Iar una dintre cele mai mari probleme rămâne memoria necesară pentru a rula aceste sisteme la scară mare.

Aici intervine noul pariu al Google, care promite să schimbe modul în care funcționează chatbot-urile moderne.

Inginerii companiei au dezvoltat un sistem numit TurboQuant, capabil să reducă de până la șase ori memoria folosită în timpul conversațiilor, fără să afecteze performanța. Pe hârtie, sună exact ca genul de optimizare pe care industria o aștepta, se arată pe Live Science.

De ce consumă AI-ul atât de multă memorie

Modelele AI, inclusiv cele folosite în chatbot-uri precum ChatGPT, au nevoie de un spațiu temporar unde să „țină minte” informațiile pe parcursul unei conversații. Acest spațiu se numește KV cache și este esențial pentru generarea răspunsurilor coerente.

Cu cât un model poate reține mai multe date simultan, cu atât devine mai capabil. Problema este că această memorie crește rapid. În scenarii complexe, poate ajunge la zeci de gigabytes pentru un singur flux de lucru, iar la nivel global, unde există milioane sau miliarde de cereri zilnice, costurile devin uriașe.

Aici intervine TurboQuant, care comprimă aceste date în timp real, nu doar o singură dată înainte de rulare, cum se întâmpla până acum.

Cum funcționează TurboQuant, de la Google, și de ce contează

Tehnologia Google folosește un proces numit „quantization”, adică reduce cantitatea de informație necesară pentru a reprezenta datele, fără să piardă esența lor. Diferența este că această compresie se face dinamic, în timp ce modelul funcționează.

Mai concret, datele din memorie sunt transformate în forme matematice mai eficiente, apoi ajustate astfel încât rezultatele finale să rămână corecte. Sistemul combină metode precum PolarQuant și QJL pentru a păstra acuratețea, chiar dacă informația este „micșorată”.

Impactul potențial este mare. Modelele AI ar putea:

  • rula pe hardware mai slab
  • procesa mai multe conversații simultan
  • reduce costurile de operare pentru companii

Pe termen lung, asta ar putea însemna AI mai accesibil, inclusiv pe dispozitive personale, nu doar în centre de date.

Nu e încă revoluția finală, dar direcția e clară

Chiar dacă promite mult, TurboQuant este încă în fază experimentală. Testele au fost făcute pe modele precum Llama 3.1, Gemma sau soluții de la Mistral AI, dar implementarea pe scară largă mai durează.

În plus, optimizarea se aplică doar în etapa de utilizare a modelului, nu și în procesul de antrenare, care consumă și mai multe resurse. Asta limitează impactul imediat, dar nu schimbă direcția în care merge industria.

Ce e interesant este reacția pieței: companii din zona hardware au resimțit deja presiunea, semn că astfel de inovații pot schimba echilibrul dintre software și infrastructură.