OpenAI vrea să repare rușinea Voice Mode din ChatGPT. Noile modele care ar trebui să înțeleagă comenzi mai dificile

OpenAI vrea să repare rușinea Voice Mode din ChatGPT. Noile modele care ar trebui să înțeleagă comenzi mai dificile
OpenAI Voice Mode / foto: reprezentare AI

OpenAI încearcă să ducă interacțiunea vocală cu inteligența artificială într-o zonă mai serioasă, după o perioadă în care Voice Mode din ChatGPT a devenit, nu de puține ori, subiect de glume pe internet. Compania a anunțat trei modele audio noi pentru dezvoltatori: GPT-Realtime-2, GPT-Realtime-Translate și GPT-Realtime-Whisper, fiecare gândit pentru un scenariu diferit de utilizare a vocii în aplicații, servicii și produse software.

Miza este simplă la suprafață, dar complicată în practică. Un asistent vocal bun nu trebuie doar să vorbească frumos sau să răspundă repede. Trebuie să înțeleagă intenția utilizatorului, să țină minte contextul, să repare conversația atunci când cererea se schimbă, să folosească instrumente externe și să execute acțiuni reale fără să inventeze rezultate.

Aici au apărut și multe dintre momentele jenante pentru OpenAI. Pe rețele sociale, mai mulți utilizatori au arătat limitele modelelor vocale anterioare, inclusiv situații în care ChatGPT părea să pretindă că a făcut ceva ce, de fapt, nu putea face. Un exemplu devenit viral a fost cel al unui timer: utilizatorul cerea modelului să cronometreze o activitate, termina imediat, iar sistemul oferea un rezultat complet greșit, ca și cum ar fi urmărit timpul în mod real.

De ce vocea AI este mai grea decât pare

OpenAI spune că vocea devine una dintre cele mai naturale metode prin care oamenii folosesc software-ul. Este ușor de înțeles de ce. Pentru mulți utilizatori, este mai rapid să vorbească decât să tasteze, mai ales în mașină, în bucătărie, la birou sau pe telefon. Problema este că o conversație vocală naturală presupune mult mai mult decât transformarea vocii în text și apoi a textului în voce.

Un agent vocal trebuie să înțeleagă formulări incomplete, pauze, reveniri, ezitări și schimbări de direcție. Când spui „stai, nu asta voiam, caută de fapt ceva mai ieftin”, sistemul trebuie să își ajusteze raționamentul fără să piardă firul discuției. Când îi ceri să facă o rezervare, să caute o casă, să programeze o vizionare sau să compare opțiuni, modelul trebuie să poată folosi instrumente conectate, nu doar să ofere o replică plăcută.

GPT-Realtime-2 este prezentat de OpenAI drept primul său model vocal cu raționament de clasă GPT-5, capabil să gestioneze cereri mai dificile și să ducă mai natural conversația mai departe. Pentru dezvoltatori, acest lucru ar trebui să permită aplicații vocale mai utile în call center, educație, asistență personală, servicii financiare, imobiliare sau suport tehnic.

Compania oferă exemplul unei interacțiuni în care utilizatorul cere unei aplicații precum Zillow să găsească locuințe în bugetul său, să evite străzile aglomerate și să programeze o vizionare sâmbătă. Este un scenariu mult mai complicat decât o întrebare banală, pentru că presupune înțelegerea preferințelor, filtrarea rezultatelor, folosirea unor date externe și declanșarea unei acțiuni concrete.

Traducere live, transcriere și promisiunea unui asistent mai util

Al doilea model nou, GPT-Realtime-Translate, este gândit pentru traducere vocală în timp real. OpenAI spune că poate traduce vorbire din peste 70 de limbi de intrare în 13 limbi de ieșire, păstrând ritmul vorbitorului. Pentru conferințe, apeluri video, servicii de suport sau discuții internaționale, o astfel de funcție poate fi extrem de valoroasă dacă funcționează suficient de bine în practică.

Diferența față de o traducere clasică este că sistemul trebuie să proceseze vorbirea pe măsură ce se întâmplă, să aștepte suficient context pentru a nu traduce greșit și să livreze audio tradus fără întârzieri mari. În limbile cu structuri gramaticale diferite, acest lucru este mai dificil decât pare. Dacă modelul răspunde prea repede, poate pierde sensul. Dacă așteaptă prea mult, conversația devine obositoare.

Al treilea model, GPT-Realtime-Whisper, este construit pentru transcriere live speech-to-text. Pe scurt, transformă vorbirea în text în timp real. O astfel de funcție poate fi utilă în întâlniri, interviuri, conferințe, subtitrări live, aplicații de accesibilitate sau servicii care au nevoie de arhivarea conversațiilor audio.

Toate aceste lansări arată că OpenAI vrea să mute vocea AI din zona de demonstrație spectaculoasă în zona de instrument practic. Nu este suficient ca un model să sune uman. Trebuie să fie consecvent, să nu mintă despre acțiuni, să știe când poate și când nu poate face ceva și să ofere rezultate verificabile.

Testul real nu va veni însă din prezentările oficiale, ci din utilizarea publică și din comunitățile care vor încerca să forțeze limitele sistemelor. Creatorii care au făcut virale greșelile Voice Mode nu vor dispărea peste noapte. Dacă noile modele vor rezista mai bine la cereri ambigue, schimbări bruște și comenzi practice, OpenAI va putea spune că a făcut un pas important. Dacă nu, internetul va avea rapid material nou pentru glume.

Pentru utilizatorii obișnuiți, direcția este clară: asistenții vocali AI vor deveni tot mai prezenți în aplicații și servicii. Întrebarea nu mai este dacă vom vorbi cu software-ul, ci cât de bine va înțelege software-ul ce vrem, cât de corect va executa și cât de sincer va fi atunci când nu poate face ceva.