Agenții AI se apropie de un „zid” matematic: de ce promisiunea autonomiei totale ar putea avea o limită dură

Agenții AI se apropie de un „zid” matematic: de ce promisiunea autonomiei totale ar putea avea o limită dură

În ultimele luni, ideea de „agenți AI” a devenit una dintre cele mai vândute promisiuni ale industriei: modele care nu doar răspund la întrebări, ci primesc o sarcină în mai mulți pași și o duc la capăt singure, fără supraveghere umană. În teorie, le spui ce vrei, iar ele își fac planul, își împart munca în sub-task-uri, iau decizii pe parcurs și livrează un rezultat final ca un asistent digital cu inițiativă.

Doar că, pe lângă problemele cunoscute – erori, halucinații, inconsistență –, a apărut un argument mai greu de ignorat: un studiu atribuit cercetătorilor Vishal Sikka și Varin Sikka susține că există o limită matematică, legată de complexitatea calculelor pe care un model de tip LLM (large language model) le poate realiza în mod fiabil. Pe scurt, nu e doar „mai avem de optimizat”, ci ar putea fi un plafon structural.

Ce spune studiul și ce înseamnă, concret, „zidul” matematic

Concluzia, formulată pe înțelesul tuturor, ar fi asta: există sarcini care cer o formă de calcul mai complexă decât poate „înghiți” un LLM într-o singură rulare, iar când treci de prag, modelul fie nu mai finalizează corect, fie finalizează cu greșeli greu de detectat. În contextul agenților AI, problema devine mai severă, fiindcă sarcinile agentice sunt, prin definiție, înlănțuiri de pași: planificare, execuție, verificare, corecție, reluare.

Studiul pune accent pe ideea că, odată ce complexitatea depășește anumite limite, modelul nu doar că poate greși, ci nu se mai poate verifica singur în mod credibil. Asta lovește direct în promisiunea „autonomiei”: dacă agentul nu are un mecanism robust de verificare, atunci poate să-ți livreze un rezultat care arată plauzibil, dar e fals sau incomplet. Iar într-o lume în care agenții AI sunt imaginați ca administratori de sistem, executanți de tranzacții, operatori pe infrastructură sau asistenți capabili să modifice fișiere și să ruleze procese, lipsa verificării devine un risc, nu o simplă imperfecțiune.

Mai important, argumentul nu e „LLM-urile nu sunt utile”, ci „LLM-urile sunt utile până la un nivel de complexitate”. Când depășești acel nivel, nu mai e o problemă de „mai pune date” sau „mai crește parametrii”, ci o problemă de structură: ai nevoie de altceva în arhitectură, în modul de control sau în sistemul de verificare. Asta schimbă discuția din „cât de repede ajungem la autonomie totală?” în „ce fel de autonomie e realistă și în ce condiții?”.

De ce agenții AI sunt mai vulnerabili decât chatboții obișnuiți

Un chatbot clasic greșește într-o conversație și, de multe ori, îl corectezi sau îl oprești. Un agent AI, în schimb, are o miză diferită: acționează. De aceea, orice eroare se poate transforma într-un lanț de acțiuni greșite: dacă pornește de la o ipoteză falsă, își poate construi un plan greșit, îl poate executa coerent, apoi îți poate prezenta un raport „frumos” care te convinge că totul a mers bine. Paradoxal, partea cea mai periculoasă nu este că agentul se blochează, ci că „merge” cu încredere în direcția greșită.

A doua vulnerabilitate este acumularea erorilor. În sarcini pe mai mulți pași, fiecare etapă devine input pentru următoarea. O mică eroare de interpretare la pasul 2 poate să-ți strice complet pasul 7. Iar dacă agentul folosește o formă de „memorie” internă sau rezumate, pierderea de detalii poate amplifica problema. În practică, asta se vede în scenarii foarte simple: îi ceri să compare oferte, să extragă date, să aplice reguli și să decidă; la început pare solid, dar pe parcurs începe să confunde constrângeri, să „uite” excepții sau să inventeze justificări.

Mai există și o chestiune psihologică: agenții AI sunt vânduți ca „muncitori autonomi”. Când au un ton sigur pe ei, tu ești tentat să le delegi mai mult. Iar delegarea crește complexitatea sarcinii. Aici apare „zidul” din discuția studiului: există un punct după care delegarea nu mai e productivă, ci riscantă.

Dacă vrei să folosești agenți AI fără să te ardă, tratează-i ca pe un coleg nou: dă-le sarcini mici, măsurabile, cu pași verificați. Rupe proiectul în bucăți, pune puncte de control și nu lăsa agentul să facă singur partea ireversibilă (plăți, ștergeri, modificări în producție) fără o confirmare explicită din partea ta.

Ce spune contextul mai larg: de la „iluzia gândirii” la verificare formală

Studiul Sikka intră într-un curent mai amplu de scepticism argumentat. În 2025, un raport al cercetătorilor Apple despre „iluzia gândirii” la modelele de raționament a alimentat ideea că, pe măsură ce crește complexitatea problemelor, atât modelele standard, cât și cele „de reasoning” pot suferi prăbușiri bruște de performanță. Mesajul implicit: abilitatea de a produce pași de raționament nu garantează că modelul aplică algoritmi corecți, mai ales când problema depășește un anumit prag.

Pe de altă parte, industria nu stă pe loc și încearcă să împacheteze agenții cu „plase de siguranță”. O direcție tot mai discutată este verificarea: în loc să ai încredere în rezultat pentru că sună bine, îl verifici printr-un mecanism separat, determinist. În lumea programării, asta poate însemna teste automate, linting, tipare de validare, execuție controlată. În zona matematicii sau a logicii, poate însemna chiar verificare formală în limbaje specializate. Ideea nu este ca LLM-ul să devină perfect, ci ca sistemul din jurul lui să facă imposibilă „minciuna funcțională”.

Aici se conturează și un compromis realist: agenții AI nu vor fi, prea curând, „autonomi în orice”. Vor fi buni în zone înguste, cu constrângeri clare și verificare puternică. În schimb, în sarcini deschise, cu multe necunoscute, reguli implicite și consecințe reale, agenții vor rămâne, probabil, instrumente semi-autonome care cer supraveghere. Nu sună la fel de spectaculos ca „AGI e după colț”, dar e mult mai apropiat de cum funcționează tehnologia azi.

Dacă vrei să judeci corect hype-ul, uită-te la un criteriu simplu: poate sistemul să-și demonstreze corectitudinea, nu doar să-ți povestească o soluție? Dacă răspunsul e „nu”, atunci ești în zona în care „zidul” despre care se vorbește devine relevant. În loc să cauți un agent care face totul, caută un agent care face puține lucruri, dar le face verificabil și repetabil. Asta e diferența dintre un demo impresionant și un instrument pe care te poți baza.