OmniAvatar: прорыв в области технологий цифрового человека с искусственным интеллектом, который оживляет фотографии

С быстрым развитием технологий искусственного интеллекта в области создания цифровых человеческих видеороликов наступила важная веха. Система OmniAvatar, совместно разработанная Чжэцзянским университетом и Alibaba Group, успешно реализовала создание естественного и плавного видео с движениями всего тела с использованием только статичной фотографии и аудиозаписи, открыв новые возможности для технологии виртуального цифрового человека.

Инновации в области цифровых человеческих технологий: от "говорящих голов" до "полнотелых представлений"

Узкие места в традиционных методах

В течение долгого времени технологии создания портретного видео с использованием звука были сосредоточены на анимации областей лица, часто называемых "говорящей головой". Хотя этот подход позволяет добиться базовой синхронизации рта, он имеет следующие существенные ограничения:

  • Ограниченный диапазон движения: управляет только изменениями в выражении лица, но не координированными движениями тела
  • Недостаточная точность синхронизации: Необходимо улучшить согласование сложного содержания речи и формы рта
  • Ограниченная способность к контролю: Трудности в достижении тонкого контроля над движением, настроением и контекстом с помощью текстовых подсказок

Инновационные прорывы OmniAvatar

OmniAvatar, эффективная аудиосистема, основанная на технологии LoRA (Low-Rank Adaptation), успешно преодолевает ограничения традиционных методов. Система способна принимать три входных сигнала: фотографию человека, аудиофайл и текстовую подсказку, а затем генерировать полноценное видео с естественными движениями тела.

Сравнение основных сильных сторон:

Технические характеристикиТрадиционные методыOmniAvatar
Сфера анимацииТолько область лицаОбщая координация тела
аудиосинхронизацияБазовый подбор ртаВысокоточное выравнивание аудио и видео
Гибкость управленияОдиночный аудиодрайверДвойное управление аудио и текстом
продолжительность видеоСоздание клиповПоддержка непрерывного вывода длинного видео
соответствие идентичностиСклонны к дрейфуСтабильное сохранение черт характера

Архитектура Core Technology: идеальная интеграция трех инновационных технологий

Попиксельное многоуровневое встраивание звука

Традиционные методы встраивания аудио обычно используют механизм перекрестного внимания, который просто смешивает аудио признаки с визуальными. OmniAvatar использует более тонкую стратегию:

Технологические инновационные пункты:

  • Извлечение высококачественных звуковых характеристик с помощью модели Wav2Vec2
  • Разработка специализированных модулей Audio Pack для сжатия и выравнивания характеристик
  • Встраивание аудиоинформации попиксельно в несколько временных слоев диффузионной модели
  • Значительно повышает точность синхронизации рта и естественность движений тела

Стратегия тонкой настройки LoRA

Для достижения эффективности обучения при сохранении возможностей генерации моделей OmniAvatar использует тонкую настройку LoRA:

Реализация программы:

  • Матрицы с низким рангом вставляются только в слои сети внимания и фидфорвардной сети модели Transformer
  • Избегайте риска чрезмерной подгонки, который может быть связан с обучением модели полного объема
  • Значительно улучшенное согласование аудио и видео по сравнению с решением, которое полностью замораживает базовую модель
  • Значительное сокращение расходов на обучение и затрат времени

Механизм создания длинных видеороликов

Компания OmniAvatar разработала уникальное решение проблемы дрейфа идентичности и когерентности, характерной для создания длинных видеороликов:

Технические моменты:

  • Представление о латентности эталонного изображения как механизме закрепления идентичности
  • Обеспечьте согласованность видео по времени с помощью стратегии наложения кадров
  • Реализация алгоритма генерации сегментов прогрессивного кадра
  • Эффективно решает проблему дрейфа цвета и кумулятивной ошибки при съемке длинных видеороликов

Производительность: лучшие экспериментальные результаты по всем направлениям

Системы оценки и наборы данных

OmniAvatar был тщательно протестирован на множестве авторитетных наборов данных с использованием признанной в отрасли системы оценочных показателей:

Учебные данные: Тщательно отобранный набор данных AVSpeech, содержащий 1 320 часов видеоконтента и около 770 000 коротких видеосэмплов.

Данные испытаний: Набор данных HDTF для высококачественного видео с лицами + набор тестов AVSpeech

Параметры оценки:

Категория оценкиКонкретные показателиЦели оценки
качество изображенияFID, IQA, ASEРеалистичность и четкость создаваемых изображений
качество видеоFVDБеглость и связность видеопоследовательностей
Точность синхронизацииSync-C, Sync-DНасколько хорошо звук соответствует мундштуку

Сравнение экспериментальных результатов

Выполнение лицевой анимации: На тестовых наборах HDTF и AVSpeech OmniAvatar достигает наилучших результатов по двум ключевым параметрам: качество изображения и синхронизация рта. По сравнению с такими известными методами, как SadTalker и MultiTalk, созданные видеоролики демонстрируют большую реалистичность и более естественные изменения выражения лица.

Возможность анимации всего тела: Именно в этом заключается самое выдающееся преимущество OmniAvatar. Результаты экспериментов показывают, что на данный момент система является единственной моделью, которая может генерировать скоординированные и естественные движения верхней и нижней частей тела, сохраняя при этом высокоточную синхронизацию рта. По сравнению с конкурирующими методами, такими как HunyuanAvatar и FantasyTalking, OmniAvatar успешно решает проблему "движения головы".

Экспериментальная проверка абляции

Проведя подробные эксперименты по абляции, исследовательская группа проверила эффективность отдельных компонентов технологии:

  • Преимущества стратегии LoRA очевидны: оптимальный баланс между эффективностью обучения и качеством генерации
  • Многослойное встраивание эффективно: Лучшее отражение временных характеристик и семантической иерархии по сравнению с однослойными методами встраивания
  • Эффекты корректировки параметров: Соответствующие параметры CFG могут усилить эффект синхронизации, но слишком высокие могут привести к чрезмерному преувеличению выражений.

Тематические исследования

Техническая задача

Хотя OmniAvatar добился значительного прогресса, перед ним все еще стоит ряд технических проблем:

Технические ограничения:

  • Длительная стабильность видео: Унаследована проблема дрейфа цвета базовой модели при генерации длинных видеороликов
  • многопользовательское взаимодействие: Необходимо усилить контроль над многосимвольными сценариями
  • производительность в реальном времени: Высокая задержка вывода, трудно удовлетворить требования приложений, работающих в режиме реального времени
  • распознавание речи: Необходимо улучшить дифференциацию личности в сценариях с несколькими собеседниками

Направления развития: Будущие технические оптимизации будут направлены на повышение стабильности длинных видео, улучшение управления многопользовательским взаимодействием, оптимизацию скорости вывода для приложений реального времени и повышение точности распознавания диктора.

заключительные замечания

OmniAvatar представляет собой важную веху в развитии технологии цифрового человека, управляемого звуком. Его прорыв в создании анимации всего тела, точность синхронизации рта и возможности управления текстом заложили прочный фундамент для промышленного применения технологии цифрового человека. Постоянно совершенствуя и оптимизируя технологию, мы имеем все основания полагать, что более интеллектуальное и естественное взаимодействие с цифровыми людьми вскоре станет реальностью.

Адрес проекта с открытым исходным кодом:https://github.com/Omni-Avatar/OmniAvatar
Ссылка на статью:https://arxiv.org/abs/2506.18866v1
Домашняя страница проекта:https://omni-avatar.github.io/

Для получения дополнительной продукции, пожалуйста, ознакомьтесь с

См. подробнее

ShirtAI - проникающий интеллект Большая модель AIGC: начало эры двойной революции в инженерном деле и науке - Проникающая разведка
1:1 Восстановление Клода и GPT Официальный сайт - AI Cloud Native Приложение для просмотра прямых трансляций матчей Global HD Sports Viewing Player (рекомендуется) - Blueshirt Technology
Транзитный сервис на основе официального API - GPTMeta API Помогите, может ли кто-нибудь из вас дать несколько советов о том, как задавать вопросы в GPT? - знание
Глобальный цифровой магазин виртуальных товаров - Global SmarTone (Feng Ling Ge) Насколько мощной является функция Claude airtfacts, что GPT мгновенно перестает хорошо пахнуть? -BeepBeep

рекламное пространство

Служба транзитных агентов на основе официальных API

В эпоху открытости и совместного использования OpenAI возглавляет революцию в искусственном интеллекте. Теперь мы объявляем всему миру, что полностью поддерживаем все модели OpenAI, например, GPT-4-ALL, GPT-4-multimodal, GPT-4-gizmo-* и т.д., а также множество собственных больших моделей. И что самое интересное, мы представили миру более мощную и влиятельную GPT-4o!

Навигация по сайту

рис. начало
Стыковка с третьими лицами
консоли
Инструкция по применению
Онлайн мониторинг

Свяжитесь с нами

公众号二维码

публичный номер

企业合作二维码

Сотрудничество Wechat

Copyright © 2021-2024 Все права защищены 2024 | GPTMeta API