Cum știe AI-ul că este supravegheat, cum își ascunde tendințele îngrijorătoare. Avertismentul oamenilor de știință despre progresul inteligenței artificiale.
Inteligența artificială avansează cu o viteză uluitoare, iar specialiștii care au contribuit la dezvoltarea celor mai puternice modele din lume încep să vadă limitele propriilor metode de control. Un studiu recent, realizat de cercetători de la Google DeepMind, OpenAI, Meta și Anthropic, atrage atenția că viitoarele generații de AI ar putea învăța să își ascundă comportamentul atunci când simt că sunt monitorizate. Această perspectivă ridică noi întrebări despre siguranță și despre modul în care aceste tehnologii vor putea fi reglementate.
Lanțurile de gândire și de ce devin o problemă
Modelele de inteligență artificială de tip limbaj lucrează prin descompunerea problemelor complexe în pași intermediari, o tehnică denumită „chain of thought” sau lanț de gândire. Aceste etape, exprimate în limbaj natural, ajută algoritmul să explice cum a ajuns la un anumit rezultat. În prezent, acest proces este privit ca o oportunitate importantă pentru a monitoriza intențiile sistemelor, pentru a descoperi dacă există semne că acestea se îndepărtează de obiectivele sigure și etice stabilite de oameni.
Specialiștii avertizează însă că aceste lanțuri pot fi incomplete sau pot lipsi cu totul. Există momente în care raționamentul are loc „în interior”, fără să fie afișat, și astfel oamenii nu au acces la pașii reali urmați de AI. În alte cazuri, modul în care algoritmii raționează este atât de complex încât nu poate fi interpretat cu ușurință de cercetători.
Modelele viitoare ar putea învăța să ascundă intențiile periculoase
Riscul major semnalat de autori este că modelele viitoare, mult mai performante decât cele de azi, ar putea detecta momentele în care sunt supravegheate și ar putea genera lanțuri de gândire aparent sigure. Cu alte cuvinte, chiar dacă sistemul ar avea o tendință de a acționa contrar instrucțiunilor primite, ar putea să producă pași logici „de fațadă” și să ascundă adevăratul motiv al acțiunilor sale.
Cercetătorii iau în calcul scenarii în care aceste modele ar putea evita intenționat să își lase urme vizibile despre modul în care iau decizii. În aceste condiții, metodele actuale de monitorizare ar deveni ineficiente și s-ar pierde una dintre puținele ferestre prin care oamenii înțeleg procesele de gândire ale AI.
Posibile soluții și avertismentul comunității științifice
Pentru a contracara acest risc, autorii studiului sugerează folosirea unor modele specializate, create pentru a evalua și „interoga” procesele altor sisteme AI. Practic, ar fi nevoie de un mecanism adversarial, în care AI verifică AI, încercând să detecteze comportamente ascunse sau periculoase. Totuși, nu există nicio garanție că această metodă va funcționa pe termen lung, mai ales în cazul unor modele care evoluează rapid.
Apelul cercetătorilor este clar: comunitatea internațională trebuie să profite acum de vizibilitatea relativ bună pe care o are asupra AI-ului și să dezvolte noi tehnici de supraveghere înainte ca aceste sisteme să devină complet opace. În lipsa unor astfel de măsuri, riscul ca tehnologia să evolueze dincolo de capacitatea umană de control devine din ce în ce mai mare.