Нейросеть Nvidia соединила мимику с голосом. Видео

19:11 10 Ноябрь Киев, Украина

Разработчики Nvidia представили нейросеть, способную анимировать мимику 3D-модели лица согласно записанной речи. Открытая платформа Audio2Face заставляет лицо аватара изменяться в соответствии с аудиофайлом, причем в реальном времени и нескольких языках. Audio2Face упрощает анимацию трехмерного персонажа и может заставить заговорить даже цифрового носорога, объясняют в блоге компании.

Как говорят сгенерированные лица?

Трехмерная реконструкция лица нейросетями с момента появления в конце 90-х годов захватила внимание разработчиков и почти сразу получила практическое применение — реалистические игровые аватары и анимация в кино, распознавание лиц и даже исследовательские работы, например, по мимике человека. Впрочем, создание реалистического лица является одним из этапов и разработчики каждый раз повышают уровень их детализации — эмоции, движения, взгляд.

И анимация сгенерированного лица согласно тексту, который оно должно говорить, является одной из широко исследованных сфер, которая, впрочем, сложно поддается масштабированию. Это связано с отсутствием доступных наборов 3D-данных, моделей и стандартных оценок для мимики, хотя большинство движений лица вызваны непосредственно речи. К примеру, рекуррентной нейронной сети понадобилось 1,9 миллиона кадров из еженедельных обращений Обамы, чтобы создавать фотореалистические анимации текстуры рта за текстом.
 
 
 
Новая разработка Nvidia – также инструмент для анимации трехмерного лица. Пока на этапе бета-тестирования Audio2Face должен сочетать аудиофайл с мимикой лица аватара. Приложение предлагают использовать для интерактивных программ в реальном времени или как традиционный инструмент создания анимации лица.

Как работает Audio2Face?

Audio2Face предварительно работает с человеческой головой Digital Mark – трехмерной моделью персонажа, которую можно анимировать с помощью звуковой дорожки, которую вы загрузите. Глубинная нейронная сеть его обработает и сама создаст необходимые на лице изменения, которые вы сможете корректировать на этапе постобработки. Кроме того, разработчики обещают, что вы можете повышать или понижать уровень выражения эмоций на каждом лице.

Нейронная сеть автоматически управляет движением глаз, рта и головы, чтобы соответствовать выбранному эмоциональному диапазону. Впрочем, это касается не только человеческой головы и реалистично заговорить сможет даже носорог. Также Audio2Face может заставить говорить несколько лиц сразу с одной или разных звуковых дорожек. Audio2Face сможет легко обрабатывать любой язык и сейчас разработчики пополняют библиотеку платформы.