OmniHuman-1: новый сервис от ByteDance создает реалистичные видео по фото

Для обучения OmniHuman-1 использовались более 18 700 часов видеоданных. Китайская компания ByteDance представила новую систему искусственного интеллекта под названием OmniHuman-1. Эта нейросеть способна преобразовывать обычные фотографии в реалистичные видеоролики, на которых люди двигаются, жестикулируют и даже говорят. OmniHuman-1 генерирует видео в полный рост, что выгодно отличает ее от предыдущих моделей ИИ, которые могли анимировать только лица или верхнюю часть тела. Новая система создает максимально естественные движения, включая мимику, жесты и синхронизацию с речью. «В последние годы сквозная человеческая анимация значительно улучшилась, но существующие методы все еще ограничены в масштабируемости и качестве. OmniHuman-1 преодолевает эти ограничения, предлагая более универсальное решение», — заявили разработчики. Для обучения OmniHuman-1 использовались более 18 700 часов видеоданных, на которых запечатлены люди в различных ситуациях. Нейросеть анализирует текст, аудио и движения тела, что позволяет ей создавать видео с высокой точностью. «Наша главная идея заключается в том, что включение множественных кондиционирующих сигналов, таких как текст, аудио и поза, значительно сокращает потери данных и улучшает качество результата», — пояснили исследователи.

Фев 5, 2025 - 16:41
 0
OmniHuman-1: новый сервис от ByteDance создает реалистичные видео по фото

Для обучения OmniHuman-1 использовались более 18 700 часов видеоданных.

Китайская компания ByteDance представила новую систему искусственного интеллекта под названием OmniHuman-1. Эта нейросеть способна преобразовывать обычные фотографии в реалистичные видеоролики, на которых люди двигаются, жестикулируют и даже говорят.

OmniHuman-1 генерирует видео в полный рост, что выгодно отличает ее от предыдущих моделей ИИ, которые могли анимировать только лица или верхнюю часть тела. Новая система создает максимально естественные движения, включая мимику, жесты и синхронизацию с речью.

«В последние годы сквозная человеческая анимация значительно улучшилась, но существующие методы все еще ограничены в масштабируемости и качестве. OmniHuman-1 преодолевает эти ограничения, предлагая более универсальное решение», — заявили разработчики.

Для обучения OmniHuman-1 использовались более 18 700 часов видеоданных, на которых запечатлены люди в различных ситуациях. Нейросеть анализирует текст, аудио и движения тела, что позволяет ей создавать видео с высокой точностью.

«Наша главная идея заключается в том, что включение множественных кондиционирующих сигналов, таких как текст, аудио и поза, значительно сокращает потери данных и улучшает качество результата», — пояснили исследователи.