Studiu surprinzător despre cât de des greșește ChatGPT în evaluarea informațiilor științifice

Studiu surprinzător despre cât de des greșește ChatGPT în evaluarea informațiilor științifice
Greșelile inteligenței artificiale / Foto: Iulia Kelt (Playtech)

Inteligența artificială este tot mai prezentă în viața de zi cu zi, iar mulți utilizatori ajung să se bazeze pe ea inclusiv pentru informații complexe.

Totuși, un studiu recent arată că lucrurile nu sunt chiar atât de simple atunci când vine vorba despre acuratețea răspunsurilor oferite de ChatGPT, mai ales în domeniul științific.

Cercetarea, citată de ScienceDaily, a analizat modul în care modelul AI evaluează sute de ipoteze științifice, iar rezultatele ridică semne serioase de întrebare.

Deși la prima vedere performanța pare decentă, analiza detaliată scoate la iveală limite importante, mai ales în ceea ce privește consecvența și capacitatea de a identifica informații false.

Precizie decentă, dar sub așteptări după ajustări

Echipa de cercetători a testat peste 700 de ipoteze, adresând aceeași întrebare de mai multe ori pentru fiecare caz. Scopul a fost nu doar verificarea corectitudinii, ci și a consistenței răspunsurilor.

În testele inițiale, realizate în 2024, ChatGPT a oferit răspunsuri corecte în aproximativ 76,5% dintre situații. Într-o rundă ulterioară, în 2025, acuratețea a crescut la 80%.

La prima vedere, aceste cifre pot părea încurajatoare. Însă, după ajustarea rezultatelor pentru a elimina influența ghicitului aleatoriu, performanța reală scade semnificativ. Practic, modelul ajunge la un nivel de aproximativ 60% peste șansă, ceea ce indică o fiabilitate moderată, nu una solidă.

Problema devine și mai evidentă atunci când analizăm capacitatea de a identifica afirmațiile false. În acest caz, performanța a fost mult mai slabă: doar aproximativ 16,4% dintre afirmațiile incorecte au fost recunoscute ca fiind false. Cu alte cuvinte, sistemul are tendința de a valida informații greșite, ceea ce poate deveni riscant în contexte reale.

Inconsistența răspunsurilor lui ChatGPT ridică semne de întrebare

Un alt aspect îngrijorător evidențiat de studiu este lipsa de consecvență. Chiar și atunci când cercetătorii au folosit exact aceeași întrebare de mai multe ori, răspunsurile oferite de ChatGPT nu au fost întotdeauna identice.

În aproximativ 73% dintre cazuri, răspunsurile au fost consecvente. Asta înseamnă că, în restul situațiilor, modelul a oferit variante diferite pentru aceeași întrebare, uneori alternând între „adevărat” și „fals” fără o justificare clară.

În unele exemple, distribuția răspunsurilor a fost chiar perfect împărțită, ceea ce subliniază caracterul imprevizibil al sistemului.

Autorii studiului atrag atenția că problema nu este doar lipsa de acuratețe, ci și această inconsistență. În scenarii reale, unde deciziile pot depinde de un răspuns clar, astfel de variații pot crea confuzie sau pot duce la interpretări greșite.

Concluzia generală a cercetătorilor este una echilibrată: inteligența artificială rămâne un instrument util, dar nu trebuie tratată ca o sursă infailibilă de adevăr. Mai ales în domenii precum știința sau afacerile, unde nuanțele contează, verificarea informațiilor rămâne esențială.

Experții recomandă utilizatorilor, inclusiv companiilor, să abordeze cu prudență rezultatele generate de AI, să le verifice din surse independente și să investească în înțelegerea limitelor acestor tehnologii. Deși evoluția este rapidă, nivelul de înțelegere conceptuală al sistemelor actuale nu se ridică încă la nivelul unui expert uman.