Google „vede” în DeepSeek și Alibaba o inteligență de tip colectiv: ce sunt „societățile gândirii” din modelele de raționament
În ultimul an, discuția despre modele care „gândesc” s-a mutat de la o întrebare simplă („au lanțuri de raționament mai lungi?”) la una mult mai interesantă: cum se organizează, de fapt, pașii interni care duc la un răspuns bun. Un studiu publicat pe arXiv de cercetători asociați cu echipa Google „Paradigms of Intelligence” susține că o parte din saltul de performanță vine din ceva apropiat de o dezbatere internă, nu doar din mai multă computație.
Cercetarea analizează două modele chinezești de raționament – DeepSeek R1 și QwQ-32B al Alibaba Cloud – și spune că, în „urmele” lor de raționare, apar perspective diferite care se contrazic, se corectează și ajung la o reconciliere, ca într-un grup uman care rezolvă o problemă dificilă. Pe scurt, nu doar „mai mult timp de gândire”, ci mai multe voci în aceeași minte artificială.
Conceptul propus de autori – „societies of thought” – pornește de la o analogie cu inteligența colectivă umană: grupurile diverse tind să găsească soluții mai bune decât indivizii, mai ales când sunt obligate să-și explice ipotezele, să-și testeze argumentele și să-și recunoască erorile. Studiul afirmă că modelele de raționament ajung să simuleze intern un mecanism similar: nu livrează doar o singură linie de răspuns, ci par să „joace” mai multe roluri cognitive înainte să finalizeze concluzia.
Implicația e importantă pentru direcția industriei: dacă diversitatea de perspective e un ingredient-cheie, atunci „inteligența” nu mai depinde exclusiv de scalarea parametrilor și a infrastructurii. Cu alte cuvinte, nu e doar despre a construi modele tot mai mari, ci despre a structura mai bine modul în care explorează spațiul soluțiilor – fie prin fine-tuning, fie prin antrenare care recompensează claritatea, autocorecția și confruntarea dintre ipoteze.
Ce au găsit cercetătorii în „urmele” de raționament
Autorii au analizat „reasoning traces” (urme de raționare) și au comparat modele de tip „reasoning” cu modele instruction-tuned. Concluzia lor: în cazul DeepSeek-R1 și QwQ-32B apare o diversitate mai mare de „perspective” interne, asociate cu trăsături de tip personalitate și expertiză (de exemplu, o voce mai prudentă vs. una mai speculativă, o abordare matematică vs. una orientată spre limbaj). Din tensiunea asta rezultă, conform lucrării, un proces mai robust de verificare și corecție.
Interesant este și felul în care au legat fenomenul de comportamente „conversaționale”: întrebări-și-răspunsuri în interiorul raționamentului, schimbări de perspectivă, împăcarea unor concluzii care inițial se bat cap în cap. Studiul susține că aceste micro-dezbateri sunt corelate cu avantajul de acuratețe pe sarcini de raționament și că poți obține îmbunătățiri mai rapide dacă antrenezi modelul cu „schelă” conversațională, nu doar cu obiectivul brut de a da răspunsul corect.
Dincolo de lucrare, contextul mediatic a subliniat un detaliu: „urmele” au devenit vizibile pentru public și au alimentat această direcție de analiză odată cu apariția modelului de raționament DeepSeek (care a expus mai clar pașii intermediari către utilizatori).
De ce modelele chinezești devin tot mai importante în cercetarea globală
Faptul că studiul se sprijină pe modele chinezești nu e un accident. QwQ-32B e prezentat ca un model compact de raționament (32B parametri) care încearcă să obțină performanțe puternice prin tehnici precum reinforcement learning, nu doar prin „mărime”. Alibaba a promovat ideea că un model relativ mic poate concura cu altele mult mai mari, iar piața a tratat anunțul ca pe un semnal serios în cursa AI.
Pe partea DeepSeek, presa internațională a relatat despre actualizări ale R1 și despre presiunea pusă rivalilor americani prin costuri mai mici și performanță competitivă – un fundal care explică de ce laboratoarele din SUA urmăresc atent aceste modele, mai ales când sunt suficient de deschise pentru experimente interdisciplinare.
Ca utilizator, partea practică e simplă: dacă testezi astfel de modele, tratează răspunsul final ca pe rezultatul unei negocieri interne, nu ca pe o sentință. Pune întrebări de verificare, cere alternative și obligă modelul să compare ipoteze – tocmai genul de „diversitate” pe care studiul o consideră combustibil pentru performanță. În plus, când folosești variante open-weight sau servicii terțe, verifică atent ce date trimiți și în ce condiții, fiindcă diferențele de implementare și politici pot conta la fel de mult ca modelul în sine.