Cercetătorii de la Google au dezvoltat un sistem bazat pe învățare profundă (deep learning) care poate selecta o anumită voce dintr-un grup de oameni care discută, analizând fața persoanei care vorbește. Totodată, sistemul inteligent poate separa o voce de sunetele de fundal cu o acuratețe care nu era posibilă până acum.
Oamenii pot, în general, să identifice cu o precizie destul de mare o anumită voce, dar dispozitivele sunt încă încurcate de sunetele de pe fundal sau de mai multe voci care se suprapun.
Cercetătorii de la Google au creat un sistem inteligent pe care l-au "învățat" să recunoască voci individuale, iar apoi l-au antrenat să identifice o anumită voce, într-un mediu zgomotos, utilizând o combinație de semnale sonore și vizuale.
"În mod intuitiv, mișcările gurii unei persoane, spre exemplu, ar trebui să fie corelate cu sunetele produse când aceasta vorbește, ceea ce ajută la stabilirea cărei părți dintr-o înregistrare îi corespunde persoanei respective", spun cercetătorii Google, într-o postare pe blogul companiei.
Google explorează oportunități de valorificare a acestui sistem în produsele sale. Tehnologia ar putea fi utilizată, spre exemplu, în servicii de chat ca Hangouts sau Duo, ajutând uilizatorii să înțeleagă mai clar ceea ce spune o persoană aflată într-un loc aglomerat.
În filmările de mai jos, persoanele vorbesc una peste cealaltă, însă tehnologia Google permite separarea perfectă a vocii persoanei selectate.