03 dec. 2025 | 15:33

Poemele, noua armă a hackerilor: cum reușesc cercetătorii să spargă limitele modelelor AI prin versuri

TEHNOLOGIE
Share
Poemele, noua armă a hackerilor: cum reușesc cercetătorii să spargă limitele modelelor AI prin versuri
Poezia, transformată într-o tehnică de atac surprinzător de eficientă

Inteligența artificială a devenit mai sofisticată ca oricând, însă și metodele de a o păcăli evoluează rapid. Un nou studiu demonstrează că o simplă schimbare de formă — transformarea unui mesaj într-o poezie — poate face ca modelele AI să răspundă unor solicitări periculoase pe care altfel le-ar refuza. Cercetători din Italia și experți în securitate au descoperit că versurile pot crește de peste cinci ori eficiența unui atac de tip jailbreak, aprinzând un nou semnal de alarmă în ceea ce privește siguranța celor mai utilizate platforme AI.

Studiul, publicat pe 19 noiembrie, arată că transformarea unor solicitări riscante în poezii cu rimă poate destabiliza mecanismele de siguranță ale modelelor de limbaj. Mai exact, atunci când același mesaj este prezentat în formă poetică, rata de succes a atacului crește de la aproximativ 8% la peste 43%. Această creștere uriașă demonstrează că formulările creative pot masca intențiile reale ale promptului, păcălind modelul în a genera informații pe care ar trebui să le blocheze.

Cercetătorii au testat peste 20 de modele AI dezvoltate de companii precum OpenAI, Google, Meta și Deepseek. Fiecare a fost expus la 1.200 de solicitări periculoase din categorii precum violență, discurs instigator la ură, defăimare, arme chimice, încălcări ale vieții private sau crearea de programe malware. Rezultatul a fost clar: aproape toate modelele au devenit mult mai vulnerabile atunci când solicitarea era transformată în versuri.

Deepseek a fost cel mai ușor de păcălit, cu o rată de succes a atacurilor poetice de 72%, față de 10% în formularea obișnuită. Google a ajuns la 66%, în timp ce OpenAI și Anthropic au rezistat mai bine, dar nu au fost imune.

De ce funcționează versurile atât de bine împotriva inteligenței artificiale

Cercetătorii explică faptul că modelele AI sunt instruite să recunoască și să respingă anumite categorii de cereri riscante prezentate în limbaj direct, structurat și clar. Însă poezia introduce ambiguitate, metaforă, ritm, imagini figurate și construcții care pot ascunde intenția reală a utilizatorului. În multe cazuri, modelul pare să interpreteze cererea ca pe o solicitare benignă, creativă, și renunță la filtrele de siguranță.

Mai mult, structurile poetice exploatează modul în care modelele AI procesează limbajul figurativ și narativ, zone în care antrenamentele de siguranță nu sunt la fel de solide. Cercetătorii vorbesc despre „degradarea comportamentului de refuz”, un fenomen în care modelul nu mai identifică pericolul din spatele cererii.

Acest lucru arată că nu doar conținutul, ci și forma promptului poate influența major deciziile modelului. Iar transformările sunt atât de simple, încât pot fi replicate ușor de oricine.

Ce înseamnă acest tip de atac pentru viitorul siguranței AI

Studiul ridică semne serioase de întrebare privind maturitatea actuală a sistemelor de protecție integrate în modelele AI. Cercetătorii avertizează că, fără o analiză profundă a modului în care modelele gestionează limbajul creativ, acestea vor continua să fie vulnerabile la atacuri ce imită comportamente normale ale utilizatorilor.

Specialiștii în securitate cibernetică subliniază și o altă problemă majoră: faptul că orice informație folosită la antrenarea unui model AI poate fi recuperată, dacă prompturile sunt suficiente de ingenioase. De aceea, organizațiile sunt sfătuite să fie extrem de selective în privința datelor introduse în algoritmi.

Mai mult, experții susțin că astfel de jailbreak-uri sunt inevitabile în evoluția tehnologiei și că reprezintă, într-un fel, un pas necesar. Fiecare vulnerabilitate descoperită forțează companiile să îmbunătățească sistemele de siguranță, dar și să regândească modul în care modelele gestionează limbajul metaforic, narativ sau stilizat.

Într-o lume în care AI devine omniprezentă, faptul că versurile pot „păcăli” algoritmii arată cât de mult mai avem de învățat despre felul în care funcționează aceste modele. Este un paradox fascinant: tehnologia de vârf, construită pe miliarde de parametri, poate fi făcută să „scape din cușcă” printr-un simplu poem.

Iar dacă poezia este capabilă să submineze filtrele de siguranță, devine clar că bătălia pentru AI sigură este abia la început.