Limba pe care inteligența artificială o înțelege cel mai bine: engleza abia pe locul 6, iar româna nici nu prinde topul

TEHNOLOGIE, ȘTIINȚĂ & DIGITAL

Un studiu realizat de cercetători de la Universitatea din Maryland împreună cu specialiști de la Microsoft a răsturnat una dintre ideile cele mai răspândite despre inteligența artificială: faptul că engleza ar fi automat limba cu care modelele de tip ChatGPT, Gemini, Llama sau DeepSeek lucrează cel mai bine. Analiza, făcută pe 26 de limbi și pe aceleași prompturi traduse identic, a arătat că o altă limbă europeană – poloneza – este în realitate cea mai eficientă pentru a obține răspunsuri precise. Iar surprizele nu se opresc aici: franceza e pe locul 2, italiana pe locul 3, în timp ce engleza abia pe locul 6, iar româna nici măcar nu intră în lista celor mai bine înțelese limbi.

Cum a fost testată inteligența artificială și de ce contează limba

Cercetătorii au folosit același set de instrucțiuni (prompturi) în 26 de limbi diferite și le-au dat mai multor modele de inteligență artificială cunoscute: ChatGPT (OpenAI), Google Gemini, Qwen, Llama, DeepSeek. Scopul a fost să vadă în ce limbă AI răspunde mai corect, mai complet și mai fidel instrucțiunilor. Rezultatul: în poloneză, acuratețea medie a răspunsurilor a ajuns la aproximativ 88%. Pe locul 2 a venit franceza (87%), iar pe locul 3 italiana (86%). Abia apoi apar spaniola și rusa, iar după ele, surprinzător pentru mulți, engleza, cu aproximativ 83,9%.

Autorii studiului explică și de ce se întâmplă asta. În primul rând, pentru că multe dintre aceste limbi europene au cantități uriașe de text public pe internet, mai ales pe Wikipedia, de unde modelele se alimentează în faza de antrenare. Poloneza are peste 1,6 milioane de articole pe Wikipedia, italiana peste 1,9 milioane. Asta înseamnă material mult, bine structurat și ușor de „învățat”. În al doilea rând, limbile slave și o parte dintre limbile romanice au o structură gramaticală pe care modelele actuale par să o segmenteze mai ușor în tokeni, ceea ce duce la mai puține erori la extragerea de informații sau la rezolvarea de sarcini.

De ce engleza și chineza nu domină și de ce nu apare româna

Cea mai mare surpriză este că engleza, limba în care sunt scrise cele mai multe texte online și cea mai folosită în documentația tehnică, nu a ieșit pe primul loc. Cercetătorii admit că nu au un răspuns definitiv, dar observă că în top 10 apar în principal limbi cu alfabet latin și cu multe resurse curate, în timp ce unele limbi foarte vorbite (precum chineza) cad mult mai jos. Chineza, de exemplu, e aproape de coada clasamentului, deși are foarte mulți vorbitori și foarte multe surse. Asta sugerează că nu doar „cât text există” contează, ci și cum e structurat și cât de bine se potrivește cu modul în care sunt antrenate modelele.

Cât despre română, studiul citat nu o include în topul de 10 limbi cel mai bine înțelese. Asta nu înseamnă că AI „nu știe” română, ci doar că, în comparație cu poloneza, franceza sau italiana, modelele dau în medie răspunsuri mai puțin precise. Explicația este aceeași ca de fiecare dată: româna are mai puține corpusuri mari, standardizate, pe care modelele să se fi antrenat. De aceea, pentru utilizatorii din România care vor rezultate de maximă calitate, o strategie posibilă este să scrie promptul în română, dar să experimenteze și cu versiuni în italiană sau franceză, dacă subiectul o permite.

Studiul mai arată și ceva interesant pentru viitor: pe măsură ce limbile cu multe resurse și structură clară sunt în continuare folosite pentru antrenare, și calitatea răspunsurilor va rămâne mai bună în ele. Cu alte cuvinte, nu e vorba că AI „iubește” poloneza, ci că modelele actuale funcționează mai bine cu anumite tipare lingvistice — iar engleza, de data asta, nu a fost regina.