Agenții AI pot fi păcăliți mai ușor decât crezi. OpenClaw, prins în teste care arată cum pot fi furate date sensibile
Două echipe de securitate au demonstrat, în cercetări separate, cât de periculoasă poate deveni combinația dintre inteligență artificială, acces la emailuri, fișiere și comenzi automate. Ținta testelor a fost OpenClaw, un agent AI self-hosted folosit pentru automatizarea unor sarcini, de la citirea mesajelor până la interacțiunea cu aplicații și servicii externe.
Problema nu este doar că un astfel de agent poate răspunde greșit. Riscul real apare atunci când AI-ul primește acces la date private și permisiunea de a acționa în numele utilizatorului. În acel moment, o instrucțiune ascunsă într-un contact sau un email scris convingător poate transforma agentul într-un executant al atacatorului.
Comenzi ascunse în contacte și mesaje aparent normale
Cercetătorii de la Imperva au analizat modul în care OpenClaw transmite către modelul AI anumite date primite prin aplicații de mesagerie. Vulnerabilitatea descoperită ținea de felul în care obiecte precum un contact partajat, o carte de vizită digitală sau o locație erau transformate în text și introduse în promptul agentului.
În loc ca aceste informații să fie tratate clar ca date nesigure venite din exterior, ele ajungeau în conversația internă a agentului fără o delimitare suficient de fermă. Practic, modelul putea interpreta anumite fragmente ca instrucțiuni, nu ca simple date. În testele cercetătorilor, acest lucru a permis declanșarea unor acțiuni periculoase, inclusiv executarea unui cod controlat de atacator.
Partea îngrijorătoare este că victima nu vedea neapărat comanda ascunsă. De exemplu, numele unui contact putea fi afișat trunchiat pe ecran, în timp ce agentul primea mai mult text în fundal. Pentru utilizator, totul părea un contact obișnuit. Pentru AI, însă, acel contact putea conține o instrucțiune mascată.
OpenClaw a remediat această problemă în versiunea 2026.4.23, prin mutarea acestor câmpuri într-o zonă tratată ca metadate nesigure, nu ca instrucțiuni normale. Totuși, cercetătorii atrag atenția că problema nu este un caz izolat. Orice agent AI care amestecă date venite din exterior cu instrucțiunile proprii poate ajunge să nu mai facă diferența între ce trebuie să citească și ce trebuie să execute.
Emailul care convinge AI-ul să trimită secrete
A doua cercetare, realizată de Varonis Threat Labs, a mers pe o direcție diferită: nu instrucțiuni ascunse, ci manipulare socială clasică. Echipa a construit un agent numit Pinchy pe platforma OpenClaw, l-a conectat la o căsuță Gmail, la instrumente de browser și la servicii Google Workspace, apoi i-a dat acces la date interne false, dar realiste.
Cercetătorii au vrut să vadă dacă un agent AI poate cădea în capcanele de phishing în care cad și oamenii. Rezultatul a fost neliniștitor. Într-un test, un email care părea să vină de la un coleg a cerut acces la un mediu de testare, invocând o problemă urgentă. Agentul a căutat în datele disponibile și a trimis mai departe chei AWS simulate, parole pentru baze de date și date de acces SSH.
Într-un alt scenariu, cererea a fost mult mai banală: un presupus coleg a solicitat un export de clienți pentru o prezentare. Agentul a livrat un set de date fals, dar construit realist, cu informații despre sute de clienți. Asta arată că nu doar urgența poate păcăli un AI, ci și normalitatea unei cereri care pare parte din rutina de lucru.
Interesant este că agentul s-a descurcat mai bine în fața unor amenințări tehnice evidente. A identificat pagini de phishing, a fost mai prudent cu aplicații OAuth suspecte și a blocat unele încercări mai vizibile. Slăbiciunea majoră a apărut acolo unde era nevoie de judecată socială: cine cere informația, de ce o cere, dacă adresa este legitimă și dacă acțiunea are sens în context.
Lecția pentru companii: agentul AI nu trebuie tratat ca un angajat de încredere
Ambele cercetări duc spre aceeași concluzie: un agent AI nu trebuie lăsat să citească date private, să primească inputuri nesigure și să trimită informații în exterior fără controale clare. Această combinație este periculoasă tocmai pentru că agentul are acces, pare util și vrea să îndeplinească sarcina primită.
Modelul de protecție trebuie să fie diferit de simpla formulare a unei instrucțiuni de tip „nu trimite date sensibile”. Testele arată că astfel de reguli pot fi ignorate atunci când agentul este pus sub presiune, când cererea pare urgentă sau când mesajul sună suficient de legitim. Așadar, apărarea reală trebuie construită în arhitectură, nu doar în prompt.
Companiile care folosesc agenți AI ar trebui să limiteze drastic permisiunile acestora. Un agent care citește emailuri externe nu ar trebui să poată accesa automat toate datele din CRM, parole, chei de infrastructură sau documente financiare. Trimiterile către adrese necunoscute ar trebui aprobate manual, iar acțiunile sensibile, precum trimiterea de credențiale sau exportul de baze de date, ar trebui blocate implicit.
La fel de importantă este identificarea stabilă a utilizatorilor. Un agent nu ar trebui să se bazeze pe nume afișate, semnături sau mesaje care par familiare, ci pe identități verificate și politici stricte. În securitate, aparența de normalitate este exact terenul pe care funcționează phishingul.
OpenClaw nu este singurul produs expus acestui tip de risc. Pe măsură ce agenții AI devin tot mai capabili și primesc acces la aplicații reale, aceștia devin și ținte mai valoroase. Un chatbot care doar răspunde la întrebări poate greși. Un agent care citește emailuri, execută comenzi și trimite fișiere poate produce o breșă.
Cea mai bună comparație este cea cu un angajat junior care are acces la sisteme importante, dar nu are instinctul de a observa când ceva nu se leagă. Poate fi util, rapid și eficient, dar nu trebuie lăsat nesupravegheat în fața datelor critice. În era agenților AI, întrebarea nu mai este doar cât de inteligenți sunt, ci cât de strict sunt controlați atunci când greșesc.