Compania-mamă Facebook a lansat cea mai mare versiune a modelelor sale de inteligență artificială Llama 3

23 iulie 2024, 20:54

Meta Platforms a lansat cea mai mare versiune a modelelor sale de inteligență artificială Llama 3, cea mai mare parte gratuită, oferind abilități multilingve și măsurători generale de performanță care urmează modelelor plătite ale unor rivali precum OpenAI, transmite Reuters

Compania-mamă Facebook a lansat cea mai mare versiune a modelelor sale de inteligență artificială Llama 3

Noul model Llama 3 poate conversa în opt limbi, poate scrie cod de calculator de calitate superioară și poate rezolva probleme de matematică mai complexe decât versiunile anterioare, a spus compania-mamă Facebook în postări pe blog și într-un document de cercetare care anunță lansarea, arată news.ro.

CITEȘTE ȘI VIDEO OnePlus a lansat tableta Pad 2. Cât va costa

Cele 405 de miliarde de parametri ai săi, sau variabilele pe care algoritmul le ia în considerare pentru a genera răspunsuri la întrebările utilizatorilor, depășesc versiunea anterioară lansată anul trecut, deși Llama 3 este încă mai mică decât modelele de top oferite de concurenți.

În schimb, modelul OpenAI GPT-4 are 1.000 de miliarde de parametri, iar Amazon investește într-un model cu 2.000 de miliarde de parametri.

Lansarea vine în timp ce companiile tehnologice se întrec pentru a arăta că portofoliile lor în creștere de modele lingvistice mari, avide de resurse, pot oferi câștiguri suficient de semnificative în domenii problematice cunoscute, cum ar fi raționamentul avansat, pentru a justifica sumele uriașe care au fost investite în ele.

CITEȘTE ȘI FOTO Elon Musk ironizează Microsoft, în două mesaje, după problema tehnică majoră de astăzi

Pe lângă modelul său emblematic cu 405 miliarde de parametri, Meta lansează și versiuni actualizate ale modelelor Llama 3, mai mici, de 8 miliarde și 70 de miliarde de parametri, introduse inițial în primăvară, a spus compania.

Toate cele trei modele noi sunt multilingve și pot gestiona solicitări mai mari ale utilizatorilor printr-o ”fereastră de context” extinsă, despre care șeful AI generativ al Meta, Ahmad Al-Dahle, a spus că ar îmbunătăți experiența de generare a codului de computer în special.

”Acesta a fost feedbackul numărul unu pe care l-am primit de la comunitate”, a declarat Al-Dahle pentru Reuters, într-un interviu, menționând că ferestrele de context mai mari oferă modelelor ceva asemănător cu o memorie mai lungă care ajută la procesarea cererilor în mai mulți pași.

Meta își lansează modelele Llama în mare parte gratuit pentru utilizarea de către dezvoltatori, o strategie pe care directorul general Mark Zuckerberg spune că va da roade sub formă de produse inovatoare și un angajament mai mare pe rețelele sociale de bază ale companiei.

CITEȘTE ȘI Reuniune a Comitetului de urgență „Cobra” în Marea Britanie, pentru a analiza impactul problemelor informatice ale Microsoft

Unii investitori au ridicat totuși din sprâncene cu privire la costurile aferente.

De asemenea, compania are de câștigat dacă dezvoltatorii optează pentru a folosi modelele sale gratuite în detrimentul celor plătite, ceea ce ar submina modelele de afaceri ale rivalilor săi.

Odată cu anunțul său, Meta a prezentat câștiguri la testele cheie de matematică și cunoștințe care ar putea face acea perspectivă mai atrăgătoare.

CITEȘTE ȘI Germania - s-a dublat numărul firmelor care folosesc tehnologii de inteligență artificială. 1 din 4 utilizează AI

Deși progresul în dezvoltarea AI este dificil de măsurat, rezultatele testelor furnizate de Meta par să sugereze că cel mai mare model Llama 3 al său aproape ete egal și, în unele cazuri, depășește Sonnetul Claude 3.5 al Anthropic și GPT-4o al OpenAI, care sunt considerate pe scară largă drept cele mai puternice două modele de frontieră de pe piață.

Pe criteriul de referință MATH al problemelor de cuvinte matematice la nivel de competiție, de exemplu, modelul lui Meta a înregistrat un scor de 73,8, în comparație cu 76,6 al lui GPT-4o și 71,1 al lui Claude 3.5 Sonnet.

Modelul a obținut 88,6 la MMLU, un punct de referință care acoperă zeci de materii din matematică, științe și științe umaniste, în timp ce GPT-4o a obținut 88,7 și Claude 3,5 Sonnet a obținut 88,3.

CITEȘTE ȘI Fără permisiune - Marile companii de AI și-au antrenat modelele lingvistice cu transcrierile filmărilor de pe YouTube

În lucrarea lor, cercetătorii Meta s-au referit, de asemenea, la viitoarele versiuni ”multimodale” ale modelelor, care urmează să fie lansate la sfârșitul acestui an, cu capacitățile de imagine, video și vorbire pe stratul modelului de text de bază Llama 3.

Experimentele timpurii arată că acele modele pot funcționa ”competitiv” cu alte modele multimodale, cum ar fi Gemini 1.5 al Google și Claude 3.5 Sonnet al Anthropic, au spus ei.