Studiu: Rezumatele generate de AI de la Google dau milioane de răspunsuri eronate pe oră, compania respinge metodologia ⋆ AI 24 Știri

Sursa foto: Digi24

Un experiment recent, derulat de The New York Times în colaborare cu startup-ul Oumi, arată că funcția AI Overviews din motorul de căutare Google oferă răspunsuri corecte în aproximativ 90% din cazuri. Analiza folosește testul SimpleQA, un set standard de 4.000 de întrebări creat de OpenAI în 2024, iar concluzia principală este că, deși majoritatea răspunsurilor generate de inteligență artificială sunt corecte, cel puțin unul din zece răspunsuri poate fi eronat. Având în vedere volumul uriaș de căutări pe Google, această rată de eroare poate genera, estimativ, milioane de răspunsuri false pe oră.

Ce este AI Overviews și cum a evoluat

AI Overviews este o funcție introdusă de Google care folosește modele de inteligență artificială din familia Gemini pentru a genera răspunsuri concise, automate, la întrebările utilizatorilor. Lansată pentru prima dată în 2024, funcția a fost extinsă semnificativ începând din mai 2025, devenind disponibilă pentru un număr tot mai mare de interogări.

De la debut, AI Overviews a provocat dezbateri și nemulțumiri legate de acuratețea informațiilor furnizate. Cu toate acestea, Google a continuat să îmbunătățească sistemul, lansând versiuni succesive ale modelelor Gemini. Potrivit investigației, precizia rezultatelor a crescut pe măsură ce modelele au evoluat, dar problema erorilor persistă la un nivel semnificativ.

Rezultatele testelor și evoluția modelelor

Experimentul citat a folosit SimpleQA, un test compus din 4.000 de întrebări creat de OpenAI în 2024, pentru a evalua calitatea răspunsurilor. Datele colectate arată următoarele etape ale performanței:

În testele inițiale realizate de Oumi în anul precedent, când modelul utilizat era Gemini 2.5, precizia AI Overviews a fost de 85%.
După trecerea la Gemini 3, precizia a urcat la 91% în testele interne raportate.
Experimentul realizat de The New York Times, în colaborare cu Oumi și folosind același set SimpleQA, a constatat o rată de acuratețe de circa 90%.

Pe scurt, testele indică un progres constant al performanței, însă chiar și o precizie de 9 din 10 implică un număr mare de răspunsuri inexacte atunci când este extrapolată la întreaga platformă, din cauza volumului enorm de căutări procesate de Google zilnic.

Ce înseamnă «milioane de răspunsuri eronate»?

Analiza publicată arată că, dacă se aplică rata de eroare observată la numărul total de interogări pe care le primește motorul de căutare, rezultatul este îngrijorător din punctul de vedere al distribuției de informații: un procent de 10% de răspunsuri eronate se traduce prin milioane de răspunsuri false pe oră și sute de mii pe minut. Autorii studiului și partenerii de testare subliniază că aceste cifre sunt extrapolări bazate pe rata de eroare măsurată, nu pe o numărătoare directă a tuturor răspunsurilor problematice.

De ce apare această problemă?

Există mai multe motive care contribuie la faptul că modelele de generare a textului pot oferi răspunsuri greșite. În primul rând, modelele pot interpreta greșit întrebarea sau pot sintetiza informații din surse diferite într-un mod care pare coerent, dar care este incorect. În al doilea rând, variația răspunsurilor la aceeași întrebare, în funcție de versiunea modelului sau de parametrii folosiți, face dificilă o evaluare simplă și unică a acurateței.

Mai mult, există diferențe între modelele din familia Gemini: unele versiuni, precum Gemini 3.1 Pro, pot furniza răspunsuri mai precise, însă sunt mai lente și costisitoare, motiv pentru care Google utilizează frecvent versiuni mai rapide și mai ieftine, numite Gemini Flash, pentru a servi un volum mare de interogări.

Poziția Google față de concluziile studiului

Reacția oficială a Google la raportul publicat în The New York Times a fost critică față de metodologia folosită. Purtătorul de cuvânt Ned Adrians a afirmat că setul de test folosit, SimpleQA, poate conține inexactități și nu reflectă cu fidelitate modul în care oamenii folosesc motorul de căutare. Google spune că, în locul acelui eșantion, compania folosește propriul instrument denumit SimpleQA Verified, care se bazează pe un eșantion mai mic, dar verificat mai atent.

Adrians a declarat, potrivit investigației, că „studiul are lacune serioase” și că „nu reflectă ceea ce caută oamenii cu adevărat pe Google”. Compania susține că evaluările trebuie adaptate la comportamentul real al utilizatorilor și la contextul în care apar întrebările.

Dificultățile evaluării acurateței

Evaluarea precisă a performanței unui model de inteligență artificială rămâne o provocare pentru întreaga industrie. Fiecare companie dezvoltă propriile metode de testare, iar rezultatele pot varia în funcție de seturile de date și criteriile de verificare folosite. În plus, modelele pot oferi răspunsuri diferite la aceeași întrebare în funcție de parametri, timpi de răspuns sau accesul la date externe, ceea ce complică comparațiile directe.

Google a precizat, într-un comentariu pentru publicația Ars Technica citată în investigație, că sistemul alege „cel mai relevant” răspuns pentru fiecare interogare, iar cele mai precise răspunsuri ar putea fi generate de modele mai avansate precum Gemini 3.1 Pro. Totuși, din rațiuni de viteză și cost, versiuni precum Gemini Flash sunt folosite pe scară largă.

Contextul mai larg: performanța modelelor și încrederea utilizatorilor

Pentru industrie, un indicator de acuratețe de 9 din 10 reprezintă, în general, un rezultat bun, mai ales în comparație cu etape anterioare ale dezvoltării modelelor. În teste interne anterioare, Google a raportat performanțe de 60–80% pentru noile modele atunci când acestea nu aveau acces la date externe. Integrarea surselor de informații de pe internet a îmbunătățit rezultatele, dar a adus și un risc suplimentar: informațiile colectate și sintetizate pot include erori sau pot fi prezentate într-un mod care induce utilizatorul în eroare.

Problema încrederii utilizatorilor este semnalată de autorii studiului: oamenii tind să acorde credit răspunsurilor generate de inteligență artificială și nu verifică în mod regulat informațiile la sursele originale. Această dinamică agravează impactul răspunsurilor eronate, pentru că greșelile pot fi preluate sau propagate fără verificare.

Ce face Google pentru a limita erorile

Chiar dacă contestă metodologia studiului, Google marchează în continuare răspunsurile AI cu o atenționare menită să încurajeze verificarea: la sfârșitul fiecărui răspuns generat de AI apare o mențiune prin care utilizatorii sunt avertizați că „IA poate greși, așa că verificați încă o dată”. Această practică reflectă recunoașterea limitărilor curente ale tehnologiei și încercarea companiei de a responsabiliza utilizatorii.

Implicări practice și discuții publice

Descoperirile raportate au readus în prim-plan discuția despre rolul și limitele inteligenței artificiale în furnizarea de informații publice. Pe de o parte, capacitatea modelelor de a sintetiza rapid și succint răspunsuri poate fi utilă pentru utilizatori. Pe de altă parte, riscul de a propaga informații inexacte la scară largă ridică probleme etice și practice pentru companii, creatori de conținut și fact-checkeri.

Dezbaterile continuă în jurul celor mai bune practici pentru evaluarea acurateței, definirea seturilor de testare relevante și mecanismele prin care companiile ar trebui să informeze utilizatorii despre posibilitatea erorilor. Studiul citat amplifică aceste preocupări și subliniază necesitatea unor metodologii de testare cât mai transparente și a unor mecanisme robuste de corectare a erorilor.

Pe măsură ce modelele lingvistice mari vor fi integrate tot mai mult în instrumentele de căutare și în alte produse digitale, presiunea pentru a asigura acuratețe și transparență va rămâne una dintre marile provocări ale industriei. Rămâne de urmărit cum vor răspunde atât dezvoltatorii tehnologici, cât și reglementatorii și societatea civilă la aceste provocări.

Informațiile prezentate în acest material se bazează pe investigația publicată de The New York Times și pe declarațiile oficialilor Google citate în aceeași analiză.

Tags: Acuratețe, Google, Inteligență Artificială

Studiu: Rezumatele generate de AI de la Google dau milioane de răspunsuri eronate pe oră, compania respinge metodologia

Ce este AI Overviews și cum a evoluat

Rezultatele testelor și evoluția modelelor