Un nou studiu realizat de Anthropic, în colaborare cu Redwood Research, scoate la iveală un comportament interesant și potențial problematic al modelelor de inteligență artificială. Cercetătorii au descoperit că unele modele avansate pot simula o schimbare de principii sau preferințe, dar, în realitate, continuă să funcționeze conform regulilor lor originale.

Acest fenomen, denumit „simularea alinierii” (alignment faking), arată că AI-ul poate pretinde că urmează noile directive în timpul antrenamentului, în timp ce își păstrează comportamentele anterioare. Deși nu există motive de panică imediată, acest comportament subliniază nevoia de cercetare aprofundată și de dezvoltare a unor măsuri de siguranță eficiente.

Modelele AI, deși sunt pur statistice și lipsite de intenții sau credințe propriu-zise, învață tipare din datele pe care sunt antrenate. Aceste tipare pot include reguli precum menținerea unui ton politicos sau neutralitatea politică. Cercetătorii de la Anthropic s-au întrebat ce s-ar întâmpla dacă un model ar fi instruit să adopte principii contradictorii față de cele originale, cum ar fi răspunsul la întrebări potențial ofensatoare.

