Microsoft представила нейромережу, що створює реалістичне відео на основі однієї фотографії

22.04.2024 22:33 51

Для створення відео VASA-1 потрібна лише одна фотографія людини та аудіодоріжка з її голосом

Технологія VASA-1 від Microsoft

Джерело: відкриті джерела

Інженери Microsoft створили нейромережу, яка змушує фотографії рухатися та говорити. Вона отримала назву VASA-1. Про це йдеться на сайті Microsoft.

Зазначається, що для створення відео VASA-1 потрібна лише одна фотографія людини та аудіодоріжка з її голосом. Алгоритми точно передають емоції, вловлюючи тонкі нюанси, що робить ролики надто реалістичними.

Ще однією функцією є зміна настрою фотографії. Також можна налаштувати напрямок погляду зображеної на знімку людини.

Щоб голова правдоподібно оберталася, VASA-1 поділяє обличчя на окремі частини, які відповідають у нас за рух певних ділянок.

На цей час нейромережа підтримує фотографії роздільною здатністю до 512×512 пікселів, а ролики генеруються з частотою до 45 к/с за умови, що нейромережа запущена на ПК з графікою NVIDIA RTX 4090.

Додамо, що минулого місяця компанія OpenAI поділилася результатами тестування функції Voice Engine на основі штучного інтелекту, яка може генерувати людський голос. Наразі технології немає у публічному доступі через можливі ризики, зокрема, щодо створення дипфейків.

На відміну від попередніх зусиль OpenAI зі створення аудіовмісту, Voice Engine може створювати голос, який звучить як у конкретної людини разом зі специфічним темпом та інтонаціями. Все, чого потребує програмне забезпечення, – 15 секунд аудіозапису розмови людини, щоб відтворити її голос.

Теги: технології Microsoft