Microsoft încearcă să pună bețe în roate celor care încearcă să păcălească chatboții AI și să îi convingă să facă lucruri ciudate.
Noi caracteristici de siguranță sunt integrate în Azure AI Studio, un serviciu alimentat de OpenAI care permite dezvoltatorilor să construiască asistenți AI personalizați folosind propriile date, a anunțat gigantul american, citat de Bloomberg.
Instrumentele includ "prompt shields", care sunt concepute pentru a detecta și bloca încercările deliberate de a face ca un model AI să se comporte într-un mod ciudat. Microsoft abordează, de asemenea, "injecțiile indirecte de prompturi", atunci când hackerii inserează instrucțiuni malițioase în datele pe care este antrenat un model și îl păcălesc să efectueze acțiuni neautorizate, cum ar fi furtul de informații despre utilizator.
Astfel de atacuri reprezintă "o provocare și o amenințare unică", a declarat Sarah Bird, director de produs al Microsoft pentru inteligență artificială responsabilă. Noile sisteme de apărare sunt concepute pentru a detecta datele suspecte și a le bloca în timp real, explică aceasta. De asemenea, Microsoft lansează o funcție care alertează utilizatorii atunci când un model inventează lucruri sau generează răspunsuri eronate.
28 noiembrie - Profit Financial.forum
Microsoft dorește să stimuleze încrederea în instrumentele sale de inteligență artificială generativă, care sunt utilizate în prezent atât de consumatori, cât și de clienți corporate. În februarie, compania a investigat incidente în care a fost implicat chatbotul său Copilot, care genera răspunsuri ciudate sau dăunătoare. După ce a analizat incidentele, Microsoft a declarat că utilizatorii au încercat în mod deliberat să îl păcălească pe Copilot pentru a genera răspunsurile respective.
"Cu siguranță, vedem o creștere pe măsură ce există o mai mare utilizare a instrumentelor, dar și pe măsură ce tot mai mulți oameni sunt conștienți de aceste tehnici", a declarat Bird. Semnele ale unor astfel de atacuri includ adresarea unei întrebări de mai multe ori unui chatbot sau solicitări care descriu jocuri de rol.