„Ultimul Examen al Omenirii”: Un test de 2.500 de întrebări arată cât mai au de învățat sistemele AI
Un consorțiu internațional a creat „Ultimul Examen al Omenirii”, un benchmark de 2.500 de întrebări care arată că și cele mai avansate sisteme AI încă au lacune semnificative.
Sursa foto: Sciencedaily
Pe măsură ce sistemele de inteligență artificială au început să obțină scoruri foarte ridicate la testele academice tradiționale, un grup internațional de cercetători a decis să construiască o provocare mult mai dură. Noul instrument, numit „Ultimul Examen al Omenirii” (Humanity’s Last Exam, HLE), cuprinde 2.500 de întrebări menite să evalueze cunoștințe foarte specializate din domenii academice diverse și să expună limitele reale ale sistemelor AI moderne.
O provocare concepută de experți pentru a măsura adevărata expertiză
Proiectul HLE a fost realizat de aproape 1.000 de specialiști din întreaga lume, inclusiv cercetători și profesori din discipline variate, de la matematică și științele naturii până la studii umaniste și limbaje vechi. Autorii testului au urmărit ca fiecare întrebare să aibă un singur răspuns clar și verificabil, iar formulările au fost gândite pentru a împiedica rezolvarea rapidă prin simple căutări pe internet.
Scopul declarat nu a fost de a păcăli oamenii sau de a crea capcane artificiale, ci de a identifica în mod precis ariile în care actualele modele AI încă nu pot reproduce cunoștința aprofundată a experților. Prin alegerea unor subiecte extrem de specializate, echipa a forțat sistemele să se confrunte cu probleme care cer înțelegere contextuală, decodare de surse arheologice, recunoaștere anatomică detaliată sau interpretări fonetice din limbi vechi.
Exemple de întrebări și metode de selecție
Întrebările din HLE acoperă o gamă largă de provocări academice: traducerea inscripțiilor palmirene antice, identificarea structurilor anatomice foarte mici la păsări sau analiza trăsăturilor detaliate ale pronunției în ebraica biblică. Fiecare întrebare a fost supusă testării preliminare cu modele AI de vârf; dacă un model oferea constant răspunsul corect, acea întrebare era eliminată din versiunea finală.
Procedura prin care au fost îndepărtate întrebările accesibile modelelor existente a fost esențială pentru a menține examenul „la limita” capabilităților automate. Astfel, versiunea finală rămâne, intenționat, puțin peste pragul la care se află competențele curente ale sistemelor evaluate.
Rezultatele timpurii: un decalaj surprinzător
Testările inițiale ale HLE au arătat că, în ciuda progreselor rapide, sistemele AI continuă să aibă deficiențe mari în fața unor sarcini expert-level. Printre rezultatele comunicate se află performanțele unor modele cunoscute: GPT-4o a obținut un scor de 2,7%, iar Claude 3.5 Sonnet a înregistrat 4,1%. Modelul o1 de la OpenAI a avut o performanță ușor superioară, de 8%.
În același timp, sistemele cele mai capabile testate până acum au obținut acuratețe considerabil mai mare, dar tot departe de perfecțiunea umană: Gemini 3.1 Pro și Claude Opus 4.6 au înregistrat niveluri de precizie situate aproximativ între 40% și 50%.
Aceste rezultate timpurii subliniază o realitate importantă: scoruri ridicate pe benchmark-uri vechi nu înseamnă neapărat că un sistem are înțelegere de expert sau că poate fi echivalat cu competența umană în domenii foarte specializate.
Contribuții individuale și rolul universitar
Printre numeroșii contributori se numără Dr. Tung Nguyen, profesor asociat în Departamentul de Informatică și Inginerie de la Texas A&M University. Nguyen a colaborat la redactarea și rafinarea multor întrebări ale examenului; el a contribuit cu 73 de întrebări din cele 2.500 disponibile public, fiind al doilea contributor ca număr de întrebări și principalul autor al celor legate de matematică și informatică.
Despre motivația implicării, Nguyen a subliniat că performanțele excepționale ale unor sisteme pe benchmark-urile umane pot induce în eroare: „Când sistemele AI încep să performeze extrem de bine la teste concepute pentru oameni, este tentant să credem că ele tind spre o înțelegere la nivel uman. HLE ne amintește însă că inteligența nu este doar recunoaștere de tip pattern, ci presupune adâncime, context și expertiză specializată.”
De ce sunt necesare noi benchmark-uri
Echipa de cercetare argumentează că instrumentele de evaluare existente nu mai sunt suficiente pentru a cuantifica progresul real al AI. Benchmark-urile tradiționale, create inițial pentru evaluarea învățării umane, măsoară cum se descurcă modelele în sarcini proiectate pentru studenți sau profesioniști la nivel convențional; însă ele nu captează neapărat capacitatea sistemelor de a oferi raționamente specializate sau de a demonstra înțelegere profundă.
Fără teste care să reflecte nivelurile avansate ale științei și umanioarelor, există riscul ca factorii de decizie — de la dezvoltatori la factori politici — să supraestimeze capabilitățile reale ale tehnologiilor. Autorii HLE subliniază importanța unor instrumente robuste pentru identificarea riscurilor și pentru orientarea dezvoltării în direcția unor tehnologii mai sigure și mai de încredere.
Un instrument construit pentru durabilitate și transparență
Proiectul HLE a fost conceput pentru a servi pe termen lung ca reper transparent al progresului AI. Partea publică a examenului conține un subset de întrebări disponibile pentru a permite inspecția și replicarea științifică, în timp ce majoritatea întrebărilor rămân ascunse pentru a împiedica memorarea lor de către modele și astfel degradarea utilității benchmark-ului.
Prin această arhitectură — o combinație între transparență parțială și protecție a conținutului — cercetătorii speră să ofere un instrument care să continue să fie relevant pe măsură ce modelele evoluează.
Scara colaborării: o realizare interdisciplinară
Proiectul stă mărturie pentru valoarea colaborării la scară largă. La dezvoltarea HLE au participat nu doar informaticieni, ci și istorici, fizicieni, lingviști, cercetători medicali și specialiști din multe alte domenii. Autorii explică faptul că această diversitate a fost esențială pentru a identifica lacunele în capacitățile actuale ale AI: problemele care par simple pentru un domeniu pot fi foarte subtile pentru altul și cer un grad de expertiză pe care modelele încă nu-l reproduc fiabil.
„Ceea ce a făcut extraordinar acest proiect a fost scala lui”, a afirmat Nguyen. „Experți din aproape fiecare disciplină au contribuit. Nu au fost doar informaticieni; au fost istorici, fizicieni, lingviști, cercetători medicali. Această diversitate tocmai expune lacunele din sistemele actuale — poate ironic, oameni lucrând împreună.”
Unde găsesc cercetătorii și publicul mai multe informații
Detalii suplimentare despre structura și metodologia testului sunt disponibile public, iar echipa a pus la dispoziție informații despre proiect pentru cei interesați de examinarea și folosirea benchmark-ului. Un punct central de informare este site-ul dedicat proiectului: lastexam.ai.
Mai mult, lucrarea științifică care descrie proiectul și rezultatele sale a fost publicată în revista Nature, oferind o prezentare academică a metodei, datelor și concluziilor: articolul din Nature.
Ce înseamnă pentru viitorul AI
Humanity’s Last Exam oferă un reper important pentru evaluarea progresului AI. Prin plasarea unei bariere deliberate peste capacitățile curente, HLE nu doar măsoară cât de mult au învățat mașinile, ci și indică direcțiile în care e necesară muncă suplimentară: integrarea contextului profund, generalizarea cunoștințelor specialistice și evitarea heuristics-urilor care pot părea eficiente în teste standard, dar inadecvate în situații autentice și complexe.
Deși numele proiectului poate părea dramatic, inițiativa nu susține că oamenii sunt pe cale de a fi înlocuiți; dimpotrivă, rezultatele reamintesc că multe forme de expertiză rămân în prezent strict umane și că înțelegerea limitelor tehnologice este esențială pentru dezvoltarea unor aplicații sigure.
Proiectul rămâne deschis evoluției: pe măsură ce modelele se îmbunătățesc, unele întrebări din HLE vor fi fie reformulate, fie înlocuite, iar baza ascunsă de întrebări va permite menținerea relevanței benchmark-ului în timp. Până atunci, rezultatele inițiale arată că, în ciuda vitezei progresului, distanța dintre performanța modelelor și cunoașterea de vârf a experților este încă semnificativă.
Materialele oferite de Texas A&M University și lucrarea publicată în Nature documentează metodologia, procesul colaborativ și implicațiile constatate ale acestui demers științific, oferind comunității instrumentele necesare pentru a evalua și monitoriza evoluția capacităților AI.