Google DeepMind a lansat un instrument de inteligență artificială capabil să genereze videoclipuri 4K, mai lungi de două minute. Laboratorul spune că producțiile respectă fidel mișcările din realitate și alte elemente complexe de fizică.
DeepMind, divizia de cercetare în domeniul AI a Google, a lansat Veo 2, un instrument mai avansat decât Veo, deja integrat în multe produse oferite de Google. DeepMind a precizat că modelul va putea crea videoclipuri mai lungi de două minute, cu rezoluție 4K, superioare celor realizate de Sora, rivalul pus la dispoziție de OpenAI, arată BiziDay.
Veo 2 este integrat în VideoFX, care momentan permite generarea de clipuri de opt secunde și cu rezoluții de până la 720p. Google a spus că va extinde durata, dar și numărul de utilizatori ai VideoFX. Spre comparație, Sora crează videoclipuri de până la 20 de secunde, cu rezoluții de până la 1080p.
Creațiile realizate de Veo 2 au la bază instrucțiuni ale utilizatorilor, sub formă de text sau de text și imagine. Altfel spus, utilizatorul descrie cum ar trebui să arate videoclipul (putând include și imagini), iar inteligența artificială îl creează. Elementul de noutate stă în mai buna înțelegere a elementelor de fizică, a încadraturilor și simulării mișcărilor de cameră, dar și în privința rezoluției, a explicat un reprezentant al DeepMind pentru Tech Crunch. Modelul AI este capabil să simuleze mai precis dinamica fluidelor (spre exemplu mișcarea unor lichide turnate într-un recipient) și să redea proprietățile luminii – umbrele și reflexiile. De asemenea, Veo 2 emulează stiluri de animație și poate aplica efecte cinematografice complexe.
Cu toate acestea, DeepMind recunoaște că Veo 2 are propriile sale limitări. “Coerența și consistența rămân domenii de îmbunătățit, mai ales în cazul instrucțiunilor complexe/lungi sau al mișcărilor rapide”, a declarat vicepreședintele de produs al DeepMind. De aceea, compania colaborează, în prezent, cu artiști și producători pentru a rafina modelele și instrumentele sale de generare video, a adăugat acesta.
De asemenea, Veo 2 a stârnit deja controverse legate de securitatea datelor dar și de protecția proprietății intelectuale, pentru că algoritmul său a fost antrenat pe un set extins de videoclipuri de înaltă calitate, descrise și sub formă de text, fără a dezvălui însă sursele. Specialiștii consideră că YouTube, deținut de Google, este, cel mai probabil, una dintre platformele folosite. Pentru a proteja drepturile creatorilor și pentru a preveni utilizarea abuzivă a tehnologiei, DeepMind a integrat un sistem de watermarking, SynthID, în cadrele generate de Veo 2. Cu toate acestea, acest sistem nu este infailibil, iar utilizarea materialelor fără consimțământ a ridicat deja controverse în industria creativă.
Today, we’re announcing Veo 2: our state-of-the-art video generation model which produces realistic, high-quality clips from text or image prompts.
— Google DeepMind (@GoogleDeepMind) December 16, 2024
We’re also releasing an improved version of our text-to-image model, Imagen 3 - available to use in ImageFX through… pic.twitter.com/h6ejHaMUM4