05 feb. 2026 | 09:01

Microsoft creează un scanner pentru detectarea backdoor-urilor în modelele AI open-weight: un pas esențial pentru securitatea inteligenței artificiale

TEHNOLOGIE
Microsoft creează un scanner pentru detectarea backdoor-urilor în modelele AI open-weight: un pas esențial pentru securitatea inteligenței artificiale
Un pas mare pentru Microsoft / Foto: Innovation News Network

Microsoft a anunțat dezvoltarea unui instrument nou de securitate dedicat inteligenței artificiale: un scanner capabil să identifice existența „backdoor-urilor” în modelele mari de limbaj open-weight (LLM-uri cu parametri accesibili public).

Soluția este concepută ca un instrument ușor, scalabil și eficient, care poate contribui la creșterea nivelului de încredere în sistemele AI utilizate în cercetare, industrie și aplicații comerciale, scrie The Hacker News.

Potrivit echipei de AI Security a companiei, scannerul funcționează pe baza unor semnale observabile din comportamentul intern al modelelor, fără a avea nevoie de antrenare suplimentară sau de informații prealabile despre natura atacului.

Practic, Microsoft propune o metodă de detecție tehnică ce urmărește modul în care anumite inputuri influențează structura internă de procesare a modelului și distribuția rezultatelor generate, cu o rată scăzută de alarme false.

Cum funcționează detectarea modelelor AI „otrăvite” și ce semnale urmărește scannerul

Modelele mari de limbaj pot fi compromise în mai multe moduri. Unul dintre cele mai periculoase scenarii este așa-numita „model poisoning” (otrăvirea modelului), prin care un atacator introduce comportamente ascunse direct în parametrii de antrenare.

Aceste comportamente nu sunt vizibile în utilizarea normală, dar pot fi activate de anumite expresii-cheie sau structuri de input, transformând modelul într-un fel de „agent latent” care răspunde diferit doar în condiții specifice.

Microsoft a identificat trei tipare clare care pot indica prezența unui backdoor:

Primul este un tipar specific de atenție internă, declanșat de fraze-declanșator, prin care modelul își concentrează procesarea pe acele elemente izolate, reducând drastic variabilitatea răspunsurilor.

Al doilea semnal este legat de memorizare: modelele compromise tind să „scurgă” fragmente din datele de otrăvire, inclusiv trigger-ele, nu ca rezultat al învățării generale, ci ca memorare directă.

Al treilea indicator constă în activarea backdoor-ului prin „declanșatori aproximați”, variații incomplete sau deformate ale frazelor originale, care pot produce același comportament ascuns.

Scannerul dezvoltat de Microsoft extrage mai întâi conținut memorat din model, îl analizează pentru a identifica secvențe relevante, apoi aplică funcții de evaluare care cuantifică nivelul de suspiciune al fiecărui fragment.

Rezultatul este o listă ierarhizată de potențiali trigger-i, care poate fi analizată ulterior de echipele de securitate AI.

Un aspect important este că metoda nu necesită modificarea modelului și funcționează pe mai multe arhitecturi de tip GPT, ceea ce o face aplicabilă la scară largă pentru ecosistemele open-weight.

Limitele tehnologiei și noua strategie Microsoft pentru securitatea AI

Deși promițător, instrumentul nu este universal. Nu poate fi aplicat modelelor proprietare (closed-source), deoarece presupune acces la fișierele interne ale modelului, și funcționează cel mai bine în cazul backdoor-urilor bazate pe declanșatori și răspunsuri deterministe.

Microsoft recunoaște că soluția nu este un „panaceu” pentru toate formele de atac asupra modelelor AI, ci un pas pragmatic spre detecția operațională reală.

Această inițiativă se înscrie într-o strategie mai amplă prin care Microsoft extinde Secure Development Lifecycle (SDL) pentru a include riscuri specifice inteligenței artificiale: prompt injection, data poisoning, manipularea pluginurilor, atacuri prin API-uri externe, contaminarea datelor de antrenare și modificarea memoriei contextuale.

Compania subliniază că sistemele AI nu mai funcționează pe logica tradițională a „zonelor de încredere” clar delimitate. Inputurile pot veni simultan din prompturi, surse externe, date recuperate automat, actualizări de model și integrarea cu servicii terțe, ceea ce creează multiple puncte de intrare pentru comportamente malițioase. În acest context, securitatea AI devine un proces continuu, nu o etapă izolată.