ChatGPT, Claude și Gemini au fost testate cu aceleași prompturi dificile. Diferențele dintre ele sunt uriașe
Inteligența artificială arată impresionant în benchmark-uri și prezentări oficiale, dar realitatea devine mult mai interesantă atunci când modelele sunt puse să rezolve sarcini complicate, apropiate de utilizarea de zi cu zi. Exact asta a vrut să afle jurnalistul tech Parth Shah, care a decis să compare versiunile premium ale OpenAI ChatGPT, Anthropic Claude și Google Gemini folosind aceleași prompturi complexe.
Rezultatele l-au surprins chiar și pe el, mai ales pentru că fiecare model a dominat categorii complet diferite, scrie XDA Developers.
ChatGPT a impresionat la programare și design
Primul test a fost unul serios de „vibe coding”. AI-urile au primit sarcina de a crea un fișier HTML complet funcțional, cu parser Markdown, sistem de etichete multiple, sidebar dinamic și o hartă relațională interactivă în dark mode OLED, totul construit doar cu CSS simplu, fără framework-uri externe precum Tailwind.
Potrivit testului, ChatGPT a ieșit clar în față. Modelul de la OpenAI nu doar că a respectat cerințele tehnice, dar a creat și o interfață elegantă și intuitivă, gata de utilizare din primul moment.
Autorul spune că tema dark OLED arăta surprinzător de bine, iar sistemul de relații dintre notițe părea suficient de bine realizat încât să funcționeze ca un produs separat.
Gemini a reușit să interpreteze corect instrucțiunile și să ofere o implementare funcțională, însă experiența vizuală și rafinamentul interfeței au fost considerate inferioare.
Surpriza negativă a venit din partea lui Claude. Deși modelul a generat un cod funcțional, rezultatul final a fost descris drept minimalist și incomplet. Lipsa exemplelor practice și a unei prezentări mai elaborate a făcut ca soluția să pară abandonată la jumătatea execuției.
Gemini a dominat testele creative și tehnice simultan
Într-un alt experiment, AI-urile au primit o provocare mult mai ciudată: să joace simultan rolul unui copywriter premium, al unui specialist SEO și al unui arhitect de baze de date PostgreSQL.
Promptul cerea generarea unei descrieri elegante pentru un brand de bijuterii fictiv, transformarea textului în metadata SEO și apoi organizarea tuturor informațiilor într-o structură tehnică precisă. Aici, Gemini a fost declarat câștigător.
Modelul dezvoltat de Google a reușit să combine partea creativă cu regulile stricte tehnice fără să piardă coerența și fără să introducă explicații inutile între etape.
ChatGPT și Claude au fost considerați mai slabi la partea de copywriting premium, textele generate fiind descrise drept prea generice și necesitând editări suplimentare.
Claude încă domină comunicarea profesională
Ultimul test important a analizat modul în care modelele redactează emailuri corporate complexe.
AI-urile au primit rolul proprietarului unei companii fictive, Talon Home Appliances, care încerca să negocieze un parteneriat pe termen lung cu o altă firmă numită Unicorn.
Scenariul presupunea explicații comerciale, riscuri, responsabilități operaționale și detalii juridice.
De această dată, Claude a câștigat fără prea mari emoții. Modelul de la Anthropic a produs un email clar, bine structurat și ușor de parcurs, folosind titluri și bullet points într-un mod considerat ideal pentru comunicarea executivă.
În plus, analiza riscurilor a fost suficient de concisă încât să ofere informații utile fără să transforme emailul într-un raport interminabil.
ChatGPT a oferit un răspuns foarte detaliat, însă autorul consideră că a exagerat cu analiza și a produs un rezultat prea încărcat pentru un context business real.