Studiul, realizat de Mass General Brigham din Massachusetts și publicat în Jama Network Open, a testat modelele de inteligență artificială folosind 29 de viniete clinice bazate pe texte medicale de referință.
În cadrul studiului, chatboților le-au fost oferite pas cu pas informații medicale legate de o boală, inclusiv constatări ale consultațiilor și rezultate ale analizelor de laborator.
Au fost astfel testate 21 de modele lingvistice, inclusiv cele dezvoltate de OpenAI, Anthropic, Google, xAI și DeepSeek.
Specialiștii au descoperit că toate modelele dau diagnostice greșite în peste 80 de cazurile în care nu au acces la informațiile incomplete ale pacienților.
Nici când au avut toate informațiile, chatboți nu au s-au descurcat grozav, având și în aceste cazuri o rată a erorilor de peste 40%. În acestea situații însă, au existat cazuri în care unii chatboți au oferit diagnosticul corect în 90% din cazuri.
Concluzia experților este că performanța chatboților de AI pe partea medicală depinde de volumul informațiilor, dar și când le sunt oferite informații complete, aceștia pot induce utilizatorii în eroare.
Asta pentru că toate modelele lingvistice actuale suferă de așa-numite halucinații, adică inventează informații atunci când trebuie să dea un răspuns fără aibă o soluție clară.
















