Modelele de inteligență artificială pot avea „halucinații" auditive: Whisper, de la OpenAI, inventează propoziții

Modelele AI audio reprezintă o ramură fascinantă a inteligenței artificiale, care se ocupă cu generarea, recunoașterea și prelucrarea sunetelor și a vorbirii. Aceste modele sunt antrenate să înțeleagă și să producă sunete, să recunoască vorbirea umană, să traducă între limbi și să efectueze sarcini precum sintetizarea vocii umane.

Ele sunt utilizate într-o varietate de domenii, inclusiv în asistenții vocali, în crearea de conținut audio și în tehnologii de asistență pentru persoanele cu deficiențe auditive sau de vorbire. Cu ajutorul modelelor AI audio, se pot dezvolta aplicații inovatoare care îmbunătățesc interacțiunea om-mașină și facilitează accesul la informație și divertisment.

Riscuri pentru aplicațiile de transcriere

Un nou studiu publicat în revista Science arată că modelele de inteligență artificială (IA) se confruntă cu un fenomen neașteptat: „halucinații” auditive.

Whisper, un model AI dezvoltat de OpenAI pentru transcrierea înregistrărilor audio, a fost observat că inventează propoziții în aproximativ 1,4% din transcrierile testate. Mai surprinzător, o proporție semnificativă dintre aceste propoziții fabricate conțin texte ofensatoare sau potențial dăunătoare.

Allison Koenecke, informatician la Universitatea Cornell și autor principal al studiului, atrage atenția asupra riscurilor pe care le implică aceste halucinații. De exemplu, în domeniul medical, aplicațiile de transcriere sunt folosite pentru a înregistra notele pacienților, iar apariția unor transcrieri inexacte sau fabricate ar putea avea consecințe grave, de la erori de diagnostic la prescrierea incorectă a tratamentelor.

„Chiar dacă performanța pare mai bună decât media, avem aceste cazuri limită în cadrul textului în sine pe care ne temem că oamenii le-ar putea rata dacă presupun că Whisper transcrie totul cu fidelitate”, a declarat Koenecke.

Provocări în dezvoltarea modelelor AI

Studiul subliniază provocările cu care se confruntă instrumentele de transcriere bazate pe IA. Diversitatea accentelor și a modelelor de vorbire din întreaga lume, precum și disponibilitatea limitată a datelor de instruire, reprezintă obstacole majore în dezvoltarea unor sisteme precise de conversie a vorbirii în text.

Roboții de chat generativi, precum Whisper, se bazează pe modele de limbaj de mari dimensiuni, antrenate pe miliarde de pagini de text din diferite surse online. Cu toate acestea, chiar și aceste modele mari nu sunt imune la erori și halucinații.

OpenAI a încorporat deja actualizări în modelul Whisper pentru a identifica și corecta halucinațiile probabile, precum și pentru a îmbunătăți precizia transcrierilor. Auditurile regulate și feedback-ul utilizatorilor vor juca un rol crucial în continuarea îmbunătățirii acestor modele, conform concluziilor studiului.

Cu toate acestea, dr. Odette Scharenborg de la Universitatea de Tehnologie din Delft subliniază importanța verificării manuale a rezultatelor generate de orice instrument de transcriere cu IA, mai ales în situații în care aceste transcrieri pot influența decizii importante. Astfel, în ciuda avansurilor tehnologice, atenția umană rămâne esențială pentru a asigura exactitatea și corectitudinea procesului de transcriere a vorbirii în text.

Modelele de inteligență artificială pot avea „halucinații” auditive: Whisper, de la OpenAI, inventează propoziții

Riscuri pentru aplicațiile de transcriere

Provocări în dezvoltarea modelelor AI