Legătura din yottaflops și viitorul inteligenței artificiale: anunțul AMD despre scalarea AI care contează mai mult decât ai crede

TEHNOLOGIE

Yottaflops AMD / foto: reprezentare AI

Când auzi „yottaflops”, e ușor să-l pui în sertarul cu termeni spectaculoși, buni de keynote și de titluri. Problema e că, în contextul AI, nu e un cuvânt de decor, ci un semn că industria a trecut de punctul în care inteligența artificială e doar o funcție în plus și a intrat în zona în care devine infrastructură. Anunțul AMD despre drumul către yottascale, făcut în jurul CES 2026, e mai important decât pare la prima vedere tocmai pentru că fixează o țintă de scalare, nu o promisiune vagă.

În ultimii ani, am văzut cum AI a schimbat ritmul. Odată cu apariția ChatGPT, lumea vorbea de capacitate globală de calcul AI în jurul unui zettaflop. Apoi, în 2022, Frontier, primul supercomputer exascale, a intrat în TOP500, iar referința „exascale” a devenit standardul de aur pentru performanță. Între timp, infrastructura AI a crescut accelerat, iar ideea că ajungem în următorii cinci ani la zeci de yottaflops rescrie scara: nu mai compari clustere, ci compari ecosisteme întregi.

De ce yottascale nu e despre un număr, ci despre o schimbare de regim

Ca să înțelegi ruptura, merită să pui scările una lângă alta. Un exaflop înseamnă 10^18 operații pe secundă, un zettaflop înseamnă 1.000 de exaflops, iar un yottaflop sare la 1.000.000 de exaflops, adică 10^24 operații pe secundă. Diferența nu este incrementală, ci de ordinul „altă lume”. De aici și comparația utilă: pentru yottascale ai ajunge la echivalentul a milioane de sisteme exascale lucrând împreună, nu la încă o generație de servere puțin mai rapide.

Dar partea care contează cu adevărat e motivul creșterii. În prima fază a boom-ului AI, atenția era pe antrenare: modele mai mari, seturi de date mai consistente, sesiuni masive de training. Acum, centrul de greutate se mută către inferență, raționare și execuție continuă. AI nu mai rulează „din când în când”, ci stă pornită, deservește miliarde de utilizatori, procesează fluxuri permanente de date și începe să fie cerută simultan în text, voce, imagini, video și semnale din senzori.

Asta schimbă economia calculului. Un model poate fi antrenat periodic, dar inferența rulează fără pauză. Agenții AI nu doar răspund, ci planifică, verifică, revin cu pași intermediari și cresc puterea de calcul pe interogare prin procese multi-step. Când ai trilioane de tokenuri procesați zilnic, „cât de mare e modelul” devine doar o parte din poveste. Cealaltă parte este „cât de des îl folosești” și „cât de complex îl pui să gândească”.

De ce scalarea reală se joacă în distribuție, nu într-un singur supercomputer

Un mesaj important din această concluzie despre yottaflops este că AI la scară yotta nu poate fi concentrată într-un singur loc. Chiar dacă ai construi clustere uriașe, lumea reală cere latență mică, costuri controlabile, reziliență și acces peste tot. De aici apare ideea de motoare AI distribuite: centre de date pentru antrenare și inferență masivă, edge pentru AI care interacționează cu lumea fizică și PC-uri pentru experiențe locale, rapide, cu date sensibile păstrate pe dispozitiv.

Aici se vede de ce AMD insistă pe un portofoliu „full stack” și pe o linie coerentă de la siliciu la software. Dacă vrei yottascale, nu-ți ajunge să ai doar acceleratoare puternice. Ai nevoie și de procesoare care orchestrează, de rețelistică capabilă să țină pasul cu traficul dintre noduri, de componente care scad overhead-ul infrastructurii și de un ecosistem software care poate scala fără să te blocheze într-o singură arhitectură. În termeni simpli, yottascale e un test de sistem, nu un test de componentă.

În acest cadru, „Helios” devine o piesă de semnificație strategică: un mod de a gândi infrastructura AI la nivel de rack și centru de date, cu accent pe design deschis, densitate de calcul, eficiență energetică și integrarea completă între CPU, GPU, rețea și software. Dacă urmărești direcția, mesajul e clar: următorul salt nu e doar despre a produce cipuri mai rapide, ci despre a face scalarea implementabilă și sustenabilă în condiții reale, unde energia și răcirea sunt limite la fel de dure ca performanța.

Dacă vrei să folosești acest context în avantajul tău, merită să te uiți la două semnale concrete când apare următorul val de produse și platforme: cât de bine scade costul pe inferență și cât de ușor se distribuie sarcina între cloud, edge și dispozitiv. Acolo se vede dacă „yottaflops” e doar ambiție sau începe să se transforme în realitate operațională.