С быстрым развитием технологий искусственного интеллекта в области создания цифровых человеческих видеороликов наступила важная веха. Система OmniAvatar, совместно разработанная Чжэцзянским университетом и Alibaba Group, успешно реализовала создание естественного и плавного видео с движениями всего тела с использованием только статичной фотографии и аудиозаписи, открыв новые возможности для технологии виртуального цифрового человека.

Инновации в области цифровых человеческих технологий: от "говорящих голов" до "полнотелых представлений"
Узкие места в традиционных методах
В течение долгого времени технологии создания портретного видео с использованием звука были сосредоточены на анимации областей лица, часто называемых "говорящей головой". Хотя этот подход позволяет добиться базовой синхронизации рта, он имеет следующие существенные ограничения:
- Ограниченный диапазон движения: управляет только изменениями в выражении лица, но не координированными движениями тела
- Недостаточная точность синхронизации: Необходимо улучшить согласование сложного содержания речи и формы рта
- Ограниченная способность к контролю: Трудности в достижении тонкого контроля над движением, настроением и контекстом с помощью текстовых подсказок
Инновационные прорывы OmniAvatar
OmniAvatar, эффективная аудиосистема, основанная на технологии LoRA (Low-Rank Adaptation), успешно преодолевает ограничения традиционных методов. Система способна принимать три входных сигнала: фотографию человека, аудиофайл и текстовую подсказку, а затем генерировать полноценное видео с естественными движениями тела.

Сравнение основных сильных сторон:
Технические характеристики | Традиционные методы | OmniAvatar |
---|---|---|
Сфера анимации | Только область лица | Общая координация тела |
аудиосинхронизация | Базовый подбор рта | Высокоточное выравнивание аудио и видео |
Гибкость управления | Одиночный аудиодрайвер | Двойное управление аудио и текстом |
продолжительность видео | Создание клипов | Поддержка непрерывного вывода длинного видео |
соответствие идентичности | Склонны к дрейфу | Стабильное сохранение черт характера |
Архитектура Core Technology: идеальная интеграция трех инновационных технологий
Попиксельное многоуровневое встраивание звука
Традиционные методы встраивания аудио обычно используют механизм перекрестного внимания, который просто смешивает аудио признаки с визуальными. OmniAvatar использует более тонкую стратегию:
Технологические инновационные пункты:
- Извлечение высококачественных звуковых характеристик с помощью модели Wav2Vec2
- Разработка специализированных модулей Audio Pack для сжатия и выравнивания характеристик
- Встраивание аудиоинформации попиксельно в несколько временных слоев диффузионной модели
- Значительно повышает точность синхронизации рта и естественность движений тела

Стратегия тонкой настройки LoRA
Для достижения эффективности обучения при сохранении возможностей генерации моделей OmniAvatar использует тонкую настройку LoRA:
Реализация программы:
- Матрицы с низким рангом вставляются только в слои сети внимания и фидфорвардной сети модели Transformer
- Избегайте риска чрезмерной подгонки, который может быть связан с обучением модели полного объема
- Значительно улучшенное согласование аудио и видео по сравнению с решением, которое полностью замораживает базовую модель
- Значительное сокращение расходов на обучение и затрат времени
Механизм создания длинных видеороликов
Компания OmniAvatar разработала уникальное решение проблемы дрейфа идентичности и когерентности, характерной для создания длинных видеороликов:
Технические моменты:
- Представление о латентности эталонного изображения как механизме закрепления идентичности
- Обеспечьте согласованность видео по времени с помощью стратегии наложения кадров
- Реализация алгоритма генерации сегментов прогрессивного кадра
- Эффективно решает проблему дрейфа цвета и кумулятивной ошибки при съемке длинных видеороликов

Производительность: лучшие экспериментальные результаты по всем направлениям
Системы оценки и наборы данных
OmniAvatar был тщательно протестирован на множестве авторитетных наборов данных с использованием признанной в отрасли системы оценочных показателей:
Учебные данные: Тщательно отобранный набор данных AVSpeech, содержащий 1 320 часов видеоконтента и около 770 000 коротких видеосэмплов.
Данные испытаний: Набор данных HDTF для высококачественного видео с лицами + набор тестов AVSpeech
Параметры оценки:
Категория оценки | Конкретные показатели | Цели оценки |
---|---|---|
качество изображения | FID, IQA, ASE | Реалистичность и четкость создаваемых изображений |
качество видео | FVD | Беглость и связность видеопоследовательностей |
Точность синхронизации | Sync-C, Sync-D | Насколько хорошо звук соответствует мундштуку |
Сравнение экспериментальных результатов
Выполнение лицевой анимации: На тестовых наборах HDTF и AVSpeech OmniAvatar достигает наилучших результатов по двум ключевым параметрам: качество изображения и синхронизация рта. По сравнению с такими известными методами, как SadTalker и MultiTalk, созданные видеоролики демонстрируют большую реалистичность и более естественные изменения выражения лица.


Возможность анимации всего тела: Именно в этом заключается самое выдающееся преимущество OmniAvatar. Результаты экспериментов показывают, что на данный момент система является единственной моделью, которая может генерировать скоординированные и естественные движения верхней и нижней частей тела, сохраняя при этом высокоточную синхронизацию рта. По сравнению с конкурирующими методами, такими как HunyuanAvatar и FantasyTalking, OmniAvatar успешно решает проблему "движения головы".


Экспериментальная проверка абляции
Проведя подробные эксперименты по абляции, исследовательская группа проверила эффективность отдельных компонентов технологии:
- Преимущества стратегии LoRA очевидны: оптимальный баланс между эффективностью обучения и качеством генерации
- Многослойное встраивание эффективно: Лучшее отражение временных характеристик и семантической иерархии по сравнению с однослойными методами встраивания
- Эффекты корректировки параметров: Соответствующие параметры CFG могут усилить эффект синхронизации, но слишком высокие могут привести к чрезмерному преувеличению выражений.
Тематические исследования
Техническая задача
Хотя OmniAvatar добился значительного прогресса, перед ним все еще стоит ряд технических проблем:
Технические ограничения:
- Длительная стабильность видео: Унаследована проблема дрейфа цвета базовой модели при генерации длинных видеороликов
- многопользовательское взаимодействие: Необходимо усилить контроль над многосимвольными сценариями
- производительность в реальном времени: Высокая задержка вывода, трудно удовлетворить требования приложений, работающих в режиме реального времени
- распознавание речи: Необходимо улучшить дифференциацию личности в сценариях с несколькими собеседниками
Направления развития: Будущие технические оптимизации будут направлены на повышение стабильности длинных видео, улучшение управления многопользовательским взаимодействием, оптимизацию скорости вывода для приложений реального времени и повышение точности распознавания диктора.
заключительные замечания
OmniAvatar представляет собой важную веху в развитии технологии цифрового человека, управляемого звуком. Его прорыв в создании анимации всего тела, точность синхронизации рта и возможности управления текстом заложили прочный фундамент для промышленного применения технологии цифрового человека. Постоянно совершенствуя и оптимизируя технологию, мы имеем все основания полагать, что более интеллектуальное и естественное взаимодействие с цифровыми людьми вскоре станет реальностью.
Адрес проекта с открытым исходным кодом:https://github.com/Omni-Avatar/OmniAvatar
Ссылка на статью:https://arxiv.org/abs/2506.18866v1
Домашняя страница проекта:https://omni-avatar.github.io/