Studiu: ChatGPT greșește în știință mai des decât credem

Un studiu WSU arată că ChatGPT oferă răspunsuri adesea inexacte și inconsistente în evaluarea ipotezelor științifice; după ajustarea pentru ghicit, performanța rămâne modestă.

Studiu: ChatGPT greșește în știință mai des decât credem

Sursa foto: Imagine generată AI iAceastă imagine a fost generată automat de AI pe baza rezumatului articolului și nu reprezintă un moment real fotografiat.


Un studiu realizat de o echipă de cercetare de la Washington State University arată că performanța ChatGPT în evaluarea afirmațiilor științifice este mai slabă și mai inconsistentă decât sugerează prima impresie. Cercetătorii au supus modelul unor teste riguroase, folosind ipoteze extrase din lucrări publicate în jurnale de afaceri, și au evaluat atât acuratețea răspunsurilor, cât și stabilitatea acestora atunci când aceeași întrebare era repetată de mai multe ori.

Abordarea studiului: cum au fost testate capacitățile de judecată ale AI

Scopul echipei condusă de profesorul asociat Mesut Cicek a fost simplu, dar provocator: să determine dacă ChatGPT poate clasifica corect o afirmație științifică ca fiind susținută de cercetare (adevărată) sau nesusținută (falsă). Pentru aceasta, echipa a selectat ipoteze extrase din studii publicate în jurnale de business începând cu 2021 și le-a redus la declarații care necesitau un verdict binar: adevărat sau fals. Reducerea unei ipoteze complexe la un răspuns „adevărat/fals” a fost în sine un demers care solicita raționament, deoarece multe dintre întrebări implicau multiple variabile și nuanțe contextuale.

În total, cercetătorii au folosit 719 ipoteze. Fiecare afirmație a fost introdusă în model de zece ori, prin aceleași prompturi identice, pentru a măsura consistența răspunsurilor la repetiții exacte ale aceleiași întrebări. Scopul replicării repetate a fost să evidențieze dacă modelul oferă răspunsuri stabile sau dacă fluctuează între variante contradictorii atunci când condițiile sunt neschimbate.

Modelele testate și etapele temporale ale experimentei

Echipa a testat două versiuni ale modelului ChatGPT: versiunea gratuită ChatGPT-3.5 în 2024 și versiunea actualizată ChatGPT-5 mini în 2025. În pofida actualizării, rezultatele între cele două versiuni au rămas în mare aceleași când s-a făcut ajustarea pentru probabilitatea răspunsului corect datorată întâmplării.

  • ChatGPT-3.5 (versiunea gratuită) — testată în 2024
  • ChatGPT-5 mini — testată în 2025

Rezultate privind acuratețea: cifre care nu încurajează încrederea necritică

La prima vedere, cifrele brute par rezonabile: în 2024, ChatGPT a răspuns corect în 76,5% din cazuri, iar în 2025 acuratețea a urcat ușor, la 80%. Totuși, cercetătorii au ajustat aceste procente pentru a ține cont de posibilitatea unei ghiciri întâmplătoare; într-un test binar (adevărat/fals), șansa de a ghici corect este de 50%.

După această ajustare, performanța reală a modelului nu mai era atât de impresionantă: în ambele runde de testare, eficiența ChatGPT față de o alegere la întâmplare a fost de aproximativ 60% peste nivelul de șansă, ceea ce, în termeni de fiabilitate, se situează mai aproape de un rezultat modest decât de o competență robustă de raționament. Echipa a interpretat această marjă ca fiind comparabilă cu o notare slabă, sugerând că modelul funcționează mai mult pe baza probabilităților de limbaj decât pe înțelegere conceptuală solidă.

Dificultatea identificării afirmațiilor false

Una dintre cele mai îngrijorătoare constatări a fost reprezentată de incapacitatea modelului de a marca corect afirmațiile false. Potrivit datelor publicate, ChatGPT a identificat corect declarațiile false numai în 16,4% din cazuri. Această valoare indică o slăbiciune severă în discriminarea între afirmații nesusținute de dovezi și afirmații susținute, ceea ce poate avea consecințe serioase dacă modelul este utilizat pentru evaluări critice sau decizii care cer validarea faptelor.

Inconsistența răspunsurilor: un model care se contrazice

Pe lângă limitările de acuratețe, modelul a prezentat o stabilitate scăzută la repetiții identice ale aceleiași întrebări. Chiar și atunci când promptul era formulat în mod identic de zece ori, ChatGPT a furnizat același răspuns doar în aproximativ 73% din cazuri. În practică, asta înseamnă că, pentru aproape 27% din ipoteze, modelul a schimbat verdictul la repetări identice.

Profesorul Mesut Cicek a subliniat această problemă în termeni clari: „Nu vorbim doar despre acuratețe, vorbim despre inconsistență, pentru că dacă pui aceeași întrebare iar și iar, primești răspunsuri diferite.” El a descris situații în care răspunsurile fluctuaeau între „adevărat” și „fals”: „Am folosit 10 prompturi cu aceeași întrebare. Totul era identic. Răspunde adevărat. Apoi spune fals. E adevărat, e fals, fals, adevărat. Au fost mai multe cazuri în care au fost cinci adevărat și cinci fals.”

Interpretarea cercetătorilor: fluenta lingvistică nu echivalează cu înțelegere

Autori ai lucrării, publicată în Rutgers Business Review, atrag atenția că fluenta și siguranța cu care modelele de limbaj generează text nu trebuie confundate cu o înțelegere conceptuală reală. Modelele mari de limbaj sunt extrem de eficiente în memorarea și combinarea tiparelor lingvistice, dar acestea nu echivalează cu capacități cognitive sau cu o „minte” care înțelege lumea. După cum afirmă Cicek, „Uneltele actuale de AI nu înțeleg lumea așa cum o facem noi — nu au un «creier»; ele doar memorează și pot oferi unele indicații, dar nu înțeleg despre ce vorbesc.”

Această distincție este centrală: răspunsurile convingătoare din punct de vedere stilistic pot induce ușor în eroare utilizatorii care nu verifică informațiile, iar rezultatul poate fi răspândirea de concluzii eronate interpretate drept autoritare.

Metodologie: selecția ipotezelor și provocările de evaluare

Echipa a ales ipoteze din studiile publicate în jurnale de afaceri, începând din 2021, tocmai pentru că astfel de întrebări implică adesea factori multipli și nuanțe care complică o evaluare binară. Reducerea unui rezultat de cercetare la un verdict „adevărat sau fals” poate necesita interpretare, judecată asupra metodologiei studiului, înțelegerea semnificației statistice și a limitărilor, precum și aprecierea contextului în care a fost formulată ipoteza. Aceste cerințe de raționament complex sunt, potrivit autorilor, puncte slabe pentru sistemele actuale bazate pe modele de limbaj.

Coautorii studiului sunt Sevincgul Ulu de la Southern Illinois University, Can Uslay de la Rutgers University și Kate Karniouchina de la Northeastern University. Implicarea autorilor din instituții academice diferite a permis proiectului să beneficieze de expertiză variată în designul studiului și interpretarea rezultatelor.

Relevanța găsirilor pentru mediul de afaceri și factorii de decizie

Cercetătorii recomandă prudență specială liderilor de afaceri care utilizează instrumente generative de AI pentru sprijin decizional. Deoarece multe decizii de business se bazează pe analiza dovezilor și pe raționamente nuanțate, folosirea necritică a concluziilor furnizate de un model de limbaj poate conduce la erori importante. Echipa sugerează verificarea informațiilor generate de AI și instruirea decidenților pentru a înțelege limitele acestor sisteme.

În context managerial, modelul poate genera idei sau sinteze utile, dar nu ar trebui să înlocuiască analiza umană riguroasă, examenul critic al metodologiei științifice sau validarea independentă a afirmațiilor. Cercetătorii evidențiază nevoia de a trata outputul AI ca pe un punct de plecare, nu ca pe o autoritate finală.

Concordanța cu alte cercetări și avertismente anterioare

Autorii notează că rezultatele lor nu sunt un caz izolat. Experimente similare cu alte instrumente AI au produs rezultate comparabile, sugerând o limitare structurală a modelelor de limbaj mari atunci când sunt puse în fața unor sarcini de raționament complex. Studiul completează un corpus tot mai mare de cercetări care cer prudență față de entuziasmul exagerat privind capacitatea actuală a AI de a „gândi”.

Mai mult, studiul face referire la un sondaj național din 2024 care a evidențiat o reticență a consumatorilor: oamenii erau mai puțin dispuși să cumpere produse promovate prin accentul pe AI. Această reacție publică arată că utilizatorii sunt deja sensibili la posibilele limitări sau la exagerările legate de performanța AI.

Ce urmează: recomandări și direcții viitoare

Pe baza constatărilelor, cercetătorii recomandă utilizatorilor și organizațiilor să-și dezvolte competențe de evaluare critică a outputului generat de AI, să implementeze proceduri de verificare a informațiilor și să nu se bazeze exclusiv pe verdictul automat al unui model. Această abordare include verificări independente ale afirmațiilor, consultarea literaturii primare și, când este necesar, implicarea experților umani pentru interpretarea rezultatelor complexe.

De asemenea, sugestiile pentru comunitatea de cercetare includ dezvoltarea unor metodologii de testare mai cuprinzătoare și a unor metrici care să măsoare nu doar acuratețea brută, ci și robustețea, consistența și capacitatea de a gestiona nuanța conceptuală.

Unde poate fi consultat studiul și materialele aferente

Rezultatele detaliate și contextul academic al studiului au fost publicate în Rutgers Business Review, iar materialele conexe și rezumatul au fost puse la dispoziție în comunicatul de presă al Washington State University. Pentru cititorii care doresc să consulte sursele originale, pot fi accesate următoarele linkuri:

Articolul publicat pe ScienceDaily

Comunicatul de presă al Washington State University

În esență, studiul pune sub semnul întrebării supoziția că modelele generative de limbaj au atins un nivel la care pot înlocui evaluarea critică umană în contexte care cer raționament complex. Rezultatele nu sugerează că aceste instrumente sunt lipsite de valoare; mai degrabă indică necesitatea de a le folosi cu discernământ, integrându-le în fluxuri de lucru care includ verificare umană și expertiză disciplinară.

Mesajul echipei este limpede: AI poate impresiona prin stilul și coerența limbajului, dar, în forma sa actuală, rămâne, în multe situații, un sistem care presupune mai mult decât înțelege. Utilizatorii și organizațiile trebuie să fie conștiente de aceste limite și să acționeze corespunzător atunci când valorifică rezultate generate de modele lingvistice pentru decizii care contează.

AI 24 Știri
Prezentare generală a confidențialității

Acest site folosește cookie-uri pentru a-ți putea oferi cea mai bună experiență în utilizare. Informațiile cookie sunt stocate în navigatorul tău și au rolul de a te recunoaște când te întorci pe site-ul nostru și de a ajuta echipa noastră să înțeleagă care sunt secțiunile site-ului pe care le găsești mai interesante și mai utile.