Інженери Microsoft створили нейромережу, яка змушує фотографії рухатися та говорити. Вона отримала назву VASA-1. Про це йдеться на сайті Microsoft.
Зазначається, що для створення відео VASA-1 потрібна лише одна фотографія людини та аудіодоріжка з її голосом. Алгоритми точно передають емоції, вловлюючи тонкі нюанси, що робить ролики надто реалістичними.
Ще однією функцією є зміна настрою фотографії. Також можна налаштувати напрямок погляду зображеної на знімку людини.
Щоб голова правдоподібно оберталася, VASA-1 поділяє обличчя на окремі частини, які відповідають у нас за рух певних ділянок.
На цей час нейромережа підтримує фотографії роздільною здатністю до 512×512 пікселів, а ролики генеруються з частотою до 45 к/с за умови, що нейромережа запущена на ПК з графікою NVIDIA RTX 4090.
Додамо, що минулого місяця компанія OpenAI поділилася результатами тестування функції Voice Engine на основі штучного інтелекту, яка може генерувати людський голос. Наразі технології немає у публічному доступі через можливі ризики, зокрема, щодо створення дипфейків.
На відміну від попередніх зусиль OpenAI зі створення аудіовмісту, Voice Engine може створювати голос, який звучить як у конкретної людини разом зі специфічним темпом та інтонаціями. Все, чого потребує програмне забезпечення, – 15 секунд аудіозапису розмови людини, щоб відтворити її голос.