OmniAvatar：让静态照片活起来的AI数字人技术突破

OmniAvatar: прорыв в области технологий цифрового человека с искусственным интеллектом, который оживляет фотографии

С быстрым развитием технологий искусственного интеллекта в области создания цифровых человеческих видеороликов наступила важная веха. Система OmniAvatar, совместно разработанная Чжэцзянским университетом и Alibaba Group, успешно реализовала создание естественного и плавного видео с движениями всего тела с использованием только статичной фотографии и аудиозаписи, открыв новые возможности для технологии виртуального цифрового человека.

Инновации в области цифровых человеческих технологий: от "говорящих голов" до "полнотелых представлений"

Узкие места в традиционных методах

В течение долгого времени технологии создания портретного видео с использованием звука были сосредоточены на анимации областей лица, часто называемых "говорящей головой". Хотя этот подход позволяет добиться базовой синхронизации рта, он имеет следующие существенные ограничения:

Ограниченный диапазон движения: управляет только изменениями в выражении лица, но не координированными движениями тела
Недостаточная точность синхронизации: Необходимо улучшить согласование сложного содержания речи и формы рта
Ограниченная способность к контролю: Трудности в достижении тонкого контроля над движением, настроением и контекстом с помощью текстовых подсказок

Инновационные прорывы OmniAvatar

OmniAvatar, эффективная аудиосистема, основанная на технологии LoRA (Low-Rank Adaptation), успешно преодолевает ограничения традиционных методов. Система способна принимать три входных сигнала: фотографию человека, аудиофайл и текстовую подсказку, а затем генерировать полноценное видео с естественными движениями тела.

Сравнение основных сильных сторон:

Технические характеристики	Традиционные методы	OmniAvatar
Сфера анимации	Только область лица	Общая координация тела
аудиосинхронизация	Базовый подбор рта	Высокоточное выравнивание аудио и видео
Гибкость управления	Одиночный аудиодрайвер	Двойное управление аудио и текстом
продолжительность видео	Создание клипов	Поддержка непрерывного вывода длинного видео
соответствие идентичности	Склонны к дрейфу	Стабильное сохранение черт характера

Архитектура Core Technology: идеальная интеграция трех инновационных технологий

Попиксельное многоуровневое встраивание звука

Традиционные методы встраивания аудио обычно используют механизм перекрестного внимания, который просто смешивает аудио признаки с визуальными. OmniAvatar использует более тонкую стратегию:

Технологические инновационные пункты:

Извлечение высококачественных звуковых характеристик с помощью модели Wav2Vec2
Разработка специализированных модулей Audio Pack для сжатия и выравнивания характеристик
Встраивание аудиоинформации попиксельно в несколько временных слоев диффузионной модели
Значительно повышает точность синхронизации рта и естественность движений тела

Стратегия тонкой настройки LoRA

Для достижения эффективности обучения при сохранении возможностей генерации моделей OmniAvatar использует тонкую настройку LoRA:

Реализация программы:

Матрицы с низким рангом вставляются только в слои сети внимания и фидфорвардной сети модели Transformer
Избегайте риска чрезмерной подгонки, который может быть связан с обучением модели полного объема
Значительно улучшенное согласование аудио и видео по сравнению с решением, которое полностью замораживает базовую модель
Значительное сокращение расходов на обучение и затрат времени

Механизм создания длинных видеороликов

Компания OmniAvatar разработала уникальное решение проблемы дрейфа идентичности и когерентности, характерной для создания длинных видеороликов:

Технические моменты:

Представление о латентности эталонного изображения как механизме закрепления идентичности
Обеспечьте согласованность видео по времени с помощью стратегии наложения кадров
Реализация алгоритма генерации сегментов прогрессивного кадра
Эффективно решает проблему дрейфа цвета и кумулятивной ошибки при съемке длинных видеороликов

Производительность: лучшие экспериментальные результаты по всем направлениям

Системы оценки и наборы данных

OmniAvatar был тщательно протестирован на множестве авторитетных наборов данных с использованием признанной в отрасли системы оценочных показателей:

Учебные данные: Тщательно отобранный набор данных AVSpeech, содержащий 1 320 часов видеоконтента и около 770 000 коротких видеосэмплов.

Данные испытаний: Набор данных HDTF для высококачественного видео с лицами + набор тестов AVSpeech

Параметры оценки:

Категория оценки	Конкретные показатели	Цели оценки
качество изображения	FID, IQA, ASE	Реалистичность и четкость создаваемых изображений
качество видео	FVD	Беглость и связность видеопоследовательностей
Точность синхронизации	Sync-C, Sync-D	Насколько хорошо звук соответствует мундштуку

Сравнение экспериментальных результатов

Выполнение лицевой анимации: На тестовых наборах HDTF и AVSpeech OmniAvatar достигает наилучших результатов по двум ключевым параметрам: качество изображения и синхронизация рта. По сравнению с такими известными методами, как SadTalker и MultiTalk, созданные видеоролики демонстрируют большую реалистичность и более естественные изменения выражения лица.

Возможность анимации всего тела: Именно в этом заключается самое выдающееся преимущество OmniAvatar. Результаты экспериментов показывают, что на данный момент система является единственной моделью, которая может генерировать скоординированные и естественные движения верхней и нижней частей тела, сохраняя при этом высокоточную синхронизацию рта. По сравнению с конкурирующими методами, такими как HunyuanAvatar и FantasyTalking, OmniAvatar успешно решает проблему "движения головы".

Экспериментальная проверка абляции

Проведя подробные эксперименты по абляции, исследовательская группа проверила эффективность отдельных компонентов технологии:

Преимущества стратегии LoRA очевидны: оптимальный баланс между эффективностью обучения и качеством генерации
Многослойное встраивание эффективно: Лучшее отражение временных характеристик и семантической иерархии по сравнению с однослойными методами встраивания
Эффекты корректировки параметров: Соответствующие параметры CFG могут усилить эффект синхронизации, но слишком высокие могут привести к чрезмерному преувеличению выражений.

Тематические исследования

Техническая задача

Хотя OmniAvatar добился значительного прогресса, перед ним все еще стоит ряд технических проблем:

Технические ограничения:

Длительная стабильность видео: Унаследована проблема дрейфа цвета базовой модели при генерации длинных видеороликов
многопользовательское взаимодействие: Необходимо усилить контроль над многосимвольными сценариями
производительность в реальном времени: Высокая задержка вывода, трудно удовлетворить требования приложений, работающих в режиме реального времени
распознавание речи: Необходимо улучшить дифференциацию личности в сценариях с несколькими собеседниками

Направления развития: Будущие технические оптимизации будут направлены на повышение стабильности длинных видео, улучшение управления многопользовательским взаимодействием, оптимизацию скорости вывода для приложений реального времени и повышение точности распознавания диктора.

заключительные замечания

OmniAvatar представляет собой важную веху в развитии технологии цифрового человека, управляемого звуком. Его прорыв в создании анимации всего тела, точность синхронизации рта и возможности управления текстом заложили прочный фундамент для промышленного применения технологии цифрового человека. Постоянно совершенствуя и оптимизируя технологию, мы имеем все основания полагать, что более интеллектуальное и естественное взаимодействие с цифровыми людьми вскоре станет реальностью.

Адрес проекта с открытым исходным кодом:https://github.com/Omni-Avatar/OmniAvatar
Ссылка на статью:https://arxiv.org/abs/2506.18866v1
Домашняя страница проекта:https://omni-avatar.github.io/

Для получения дополнительной продукции, пожалуйста, ознакомьтесь с	См. подробнее
ShirtAI - проникающий интеллект	Большая модель AIGC: начало эры двойной революции в инженерном деле и науке - Проникающая разведка
1:1 Восстановление Клода и GPT Официальный сайт - AI Cloud Native	Приложение для просмотра прямых трансляций матчей Global HD Sports Viewing Player (рекомендуется) - Blueshirt Technology
Транзитный сервис на основе официального API - GPTMeta API	Помогите, может ли кто-нибудь из вас дать несколько советов о том, как задавать вопросы в GPT? - знание
Глобальный цифровой магазин виртуальных товаров - Global SmarTone (Feng Ling Ge)	Насколько мощной является функция Claude airtfacts, что GPT мгновенно перестает хорошо пахнуть? -BeepBeep

API GPTMeta

OmniAvatar: прорыв в области технологий цифрового человека с искусственным интеллектом, который оживляет фотографии

Инновации в области цифровых человеческих технологий: от "говорящих голов" до "полнотелых представлений"

Узкие места в традиционных методах

Инновационные прорывы OmniAvatar

Архитектура Core Technology: идеальная интеграция трех инновационных технологий

Попиксельное многоуровневое встраивание звука

Стратегия тонкой настройки LoRA

Механизм создания длинных видеороликов

Производительность: лучшие экспериментальные результаты по всем направлениям

Системы оценки и наборы данных

Сравнение экспериментальных результатов

Экспериментальная проверка абляции

Тематические исследования

Техническая задача

заключительные замечания

Для получения дополнительной продукции, пожалуйста, ознакомьтесь с

См. подробнее

рекламное пространство

API GPTMeta

Служба транзитных агентов на основе официальных API

Навигация по сайту

рис. начало

Стыковка с третьими лицами

консоли

Инструкция по применению

Онлайн мониторинг

Дружественная ссылка

OpenAI

Близнецы

Метаверсия GPT

Клод Метаверс

РубашкаAI

сине-блузовое облако

Свяжитесь с нами