OpenAI admite: browserele cu agenți AI vor rămâne o țintă pentru prompt injection
Ideea unui browser care „navighează” în locul tău, completează formulare, compară produse și trimite e-mailuri sună ca un pas firesc în evoluția internetului. Doar că, odată ce un agent de inteligență artificială primește permisiunea să acționeze, el devine și o țintă mult mai valoroasă pentru atacatori.
Într-o postare publică, OpenAI a avertizat că atacurile de tip prompt injection – adică situațiile în care un agent AI este păcălit să urmeze instrucțiuni malițioase ascunse în pagini web, documente sau e-mailuri – sunt un risc de securitate care, realist vorbind, nu va putea fi eliminat complet. Compania compară fenomenul cu fraudele și ingineria socială de pe internet: poți reduce pagubele, dar nu poți garanta „imunitate” totală.
De ce prompt injection seamănă cu ingineria socială
Atacurile de tip prompt injection exploatează exact locul în care modelele lingvistice sunt cele mai „bune”: interpretarea textului în context. Un atacator nu trebuie neapărat să spargă un server sau să treacă de un firewall; poate „strecura” o instrucțiune într-un fragment aparent banal – un e-mail de newsletter, un document atașat, o pagină cu termeni și condiții – iar agentul AI o poate trata ca pe o comandă relevantă.
De aici și comparația cu ingineria socială: nu e doar o problemă tehnică, ci și una de manipulare a „comportamentului” sistemului. Centrul Național de Securitate Cibernetică din Marea Britanie a subliniat recent că astfel de atacuri s-ar putea să nu poată fi niciodată complet prevenite, tocmai pentru că, în interiorul unui model lingvistic, granița dintre „date” și „instrucțiuni” nu este clară în mod nativ.
Consecința practică e incomodă: pe măsură ce agenții AI sunt conectați la tot mai multe servicii (e-mail, documente, cumpărături, plăți), miza crește, iar atacurile devin mai creative. Nu vorbim doar despre furt de date, ci și despre acțiuni nedorite făcute „în numele tău”, cu aparența că tu le-ai cerut.
ChatGPT Atlas și „agent mode” măresc suprafața de atac
Contextul avertismentului OpenAI este lansarea ChatGPT Atlas, un browser cu ChatGPT integrat, prezentat în octombrie 2025. Atlas pune accent pe navigare asistată și pe „agent mode”, funcția în care AI-ul nu doar îți explică o pagină, ci interacționează efectiv cu site-urile pentru a finaliza sarcini (de la documentare la cumpărături sau completarea unor formulare).
OpenAI recunoaște însă că acest „agent mode” „extinde suprafața de atac” – o formulare care, în securitate, înseamnă simplu: ai mai multe puncte prin care poți fi lovit. Cu cât agentul poate face mai multe lucruri, cu atât există mai multe situații în care poate fi păcălit să facă ceva greșit.
La scurt timp după lansare, cercetători în securitate au arătat că pot influența comportamentul unui astfel de browser cu instrucțiuni ascunse în conținut aparent inofensiv. Nu e nevoie ca „textul malițios” să fie vizibil pentru utilizator; poate fi ascuns în structura paginii sau în elemente care nu sar în ochi, dar pe care agentul le citește.
Aici apare și dilema: dacă un browser AI este construit ca să citească „tot” și să acționeze rapid, el devine, inevitabil, mai expus la capcane decât un browser clasic, unde tu ești cel care decide manual fiecare click și fiecare acțiune sensibilă.
Cum încearcă OpenAI să reducă riscul, fără să promită invulnerabilitate
Strategia anunțată de OpenAI se bazează pe testare continuă și reacție rapidă: compania spune că rulează constant scenarii de atac, caută vulnerabilități și livrează mitigări într-un ciclu scurt, pe măsură ce apar metode noi de păcălire a agenților. O piesă centrală este dezvoltarea unui „atacator automatizat”, bazat pe modele lingvistice mari, antrenat prin învățare prin recompensă să joace rolul unui hacker și să descopere căi noi de exploatare înainte să o facă cineva în lumea reală.
Într-un exemplu folosit de companie, un e-mail malițios a reușit să determine agentul să trimită din greșeală un mesaj de demisie; după actualizări, Atlas a ajuns să detecteze tentativa și să o semnalizeze utilizatorului. E un semn că protecțiile pot evolua rapid, dar și o demonstrație a problemei de fond: atacul nu seamănă cu „spargerea” unui sistem, ci cu deturnarea lui prin conținut.
Dacă folosești un browser cu agent AI, abordarea realistă e să tratezi orice acțiune ca pe o delegare controlată, nu ca pe un „autopilot” complet. Limitează permisiunile agentului la strictul necesar, activează confirmări pentru pași sensibili (mesaje trimise, plăți, modificări de cont) și separă cât poți sesiunile: una pentru browsing obișnuit, alta pentru sarcini unde agentul are acces la date personale. Ideea nu este să nu folosești agentul, ci să-l ții într-un cadru în care greșelile – inevitabile, după cum admit chiar dezvoltatorii – nu devin catastrofale.