OmniAvatar:让静态照片活起来的AI数字人技术突破

Con el rápido desarrollo de la tecnología de inteligencia artificial, el campo de la generación de vídeo humano digital ha marcado un hito importante. El sistema OmniAvatar, desarrollado conjuntamente por la Universidad de Zhejiang y Alibaba Group, ha logrado generar vídeos de cuerpo entero naturales y fluidos con solo una foto estática y un fragmento de audio, lo que abre nuevas posibilidades a la tecnología de humanos digitales virtuales.

Innovaciones en tecnología humana digital: de las "cabezas parlantes" a las "actuaciones de cuerpo entero"

Cuellos de botella en los métodos tradicionales

Durante mucho tiempo, las técnicas de generación de vídeo retrato basadas en audio se han centrado en la animación de zonas faciales, a menudo denominadas técnicas de "cabeza parlante". Aunque este enfoque consigue una sincronización básica de la boca, tiene las siguientes limitaciones significativas:

  • Rango de movimiento limitado: sólo impulsa cambios en la expresión facial, no movimientos corporales coordinados
  • Precisión de sincronización insuficiente: Hay que mejorar la correspondencia entre el contenido del habla compleja y la forma de la boca
  • Capacidad limitada de controlDificultad para lograr un control preciso del movimiento, el estado de ánimo y el contexto a través de señales textuales.

Avances innovadores de OmniAvatar

OmniAvatar, un eficaz sistema acústico basado en la tecnología LoRA (Low-Rank Adaptation), supera con éxito las limitaciones de los métodos tradicionales. El sistema es capaz de tomar tres entradas: una foto fija de una persona, un archivo de audio y una indicación de texto, y luego generar un vídeo completo con movimientos corporales naturales.

Comparación de puntos fuertes:

Características técnicasMétodos tradicionalesOmniAvatar
Ámbito de la animaciónSólo zona facialCoordinación de todo el cuerpo
sincronización de audioEmparejamiento bucal básicoAlineación de audio y vídeo de alta precisión
Flexibilidad de controlControlador de audio únicoControl dual de audio + texto
duración del vídeoGeneración de clipsAdmite salida continua de vídeo de larga duración
coherencia de identidadPropenso a la derivaMantenimiento estable de los rasgos de carácter

Core Technology Architecture: la integración perfecta de tres tecnologías innovadoras

Incrustación de audio multinivel píxel a píxel

Los métodos tradicionales de incrustación de audio suelen emplear un mecanismo de atención cruzada que se limita a mezclar las características sonoras con las visuales.OmniAvatar emplea una estrategia más refinada:

Puntos de innovación tecnológica:

  • Extracción de características de audio de alta calidad mediante el modelo Wav2Vec2
  • Diseño de un módulo Audio Pack especializado para la compresión y alineación de funciones
  • Incrustación de información de audio píxel a píxel en múltiples capas de temporización de un modelo de difusión
  • Mejora notablemente la precisión de la sincronización bucal y la naturalidad de los movimientos corporales.

Estrategia de ajuste de LoRA

Para lograr una formación eficaz manteniendo la capacidad de generación de modelos, OmniAvatar emplea el ajuste fino LoRA:

Ejecución del programa:

  • Las matrices de bajo rango sólo se insertan en las capas de atención y de la red feedforward del modelo Transformer
  • Evita el riesgo de sobreajuste que puede conllevar el entrenamiento de modelos de volumen completo.
  • Alineación audio-vídeo significativamente mejorada en comparación con una solución que congela por completo el modelo base.
  • Reducción significativa de los costes de formación y del consumo de tiempo.

Mecanismo de generación de vídeos largos

OmniAvatar ha diseñado una solución única para los problemas de deriva de identidad y coherencia habituales en la generación de vídeos largos:

Puntos técnicos:

  • Introducción de la imagen latente de referencia como mecanismo de anclaje de la identidad
  • Garantizar la coherencia temporal del vídeo con la estrategia de solapamiento de fotogramas
  • Aplicación de un algoritmo de generación progresiva de segmentos de trama
  • Resuelve eficazmente el problema de la deriva cromática y el error acumulativo en vídeos largos

Rendimiento: resultados experimentales líderes en todos los ámbitos

Sistemas de evaluación y conjuntos de datos

OmniAvatar se ha sometido a pruebas exhaustivas en múltiples conjuntos de datos fidedignos mediante un sistema de métricas de evaluación reconocido en el sector:

Datos de entrenamiento: Un conjunto de datos AVSpeech cuidadosamente seleccionado que contiene 1.320 horas de contenidos de vídeo y unas 770.000 muestras de vídeos cortos.

Datos de la prueba: Conjunto de datos de vídeo facial de alta calidad HDTF + conjunto de pruebas AVSpeech

Dimensiones de la evaluación:

Categoría de evaluaciónIndicadores específicosObjetivos de la evaluación
calidad de imagenFID, IQA, ASERealismo y claridad de las imágenes generadas
calidad de vídeoFVDFluidez y coherencia de las secuencias de vídeo
Precisión de sincronizaciónSync-C, Sync-DCómo se adapta el audio a la boquilla

Comparación de los resultados experimentales

Realización de animaciones faciales: En los conjuntos de pruebas HDTF y AVSpeech, OmniAvatar obtiene los mejores resultados en dos métricas clave: calidad de imagen y sincronización bucal. En comparación con métodos conocidos como SadTalker y MultiTalk, los vídeos generados muestran un mayor realismo y cambios de expresión más naturales.

Capacidad de animación de cuerpo entero: Aquí es donde reside la ventaja más destacada de OmniAvatar. Los resultados experimentales demuestran que el sistema es actualmente el único modelo capaz de generar movimientos coordinados y naturales de la parte superior e inferior del cuerpo, manteniendo al mismo tiempo una sincronización bucal de alta precisión. En comparación con otros métodos de la competencia, como HunyuanAvatar y FantasyTalking, OmniAvatar resuelve con éxito el problema del "movimiento de la cabeza".

Verificación experimental de la ablación

Mediante detallados experimentos de ablación, el equipo de investigación comprobó la eficacia de cada uno de los componentes de la tecnología:

  • Las ventajas de la estrategia LoRA son evidentesEquilibrio óptimo entre la eficacia de la formación y la calidad de la generación
  • La incrustación multicapa es eficazMejor captura de las características temporales y la jerarquía semántica en comparación con los métodos de incrustación de una sola capa.
  • Efectos del ajuste de parámetrosLos parámetros CFG adecuados pueden mejorar el efecto de sincronización, pero si son demasiado altos pueden dar lugar a expresiones exageradas.

Casos prácticos

El reto técnico

Aunque OmniAvatar ha realizado progresos significativos, aún se enfrenta a una serie de retos técnicos:

Limitaciones técnicas:

  • Estabilidad de vídeo prolongada: Heredado el problema de deriva de color del modelo base en la generación de vídeo largo.
  • interacción multijugador: Hay que reforzar el control de los escenarios con varios personajes
  • rendimiento en tiempo realAlta latencia de inferencia, difícil de satisfacer los requisitos de las aplicaciones en tiempo real
  • reconocimiento de oradores: Hay que mejorar la diferenciación de identidades en escenarios con varios interlocutores

Orientaciones para el desarrollo: Las futuras optimizaciones técnicas se centrarán en mejorar la estabilidad de los vídeos largos, potenciar el control de las interacciones multijugador, optimizar la velocidad de inferencia para aplicaciones en tiempo real y mejorar la precisión del reconocimiento de locutores.

observaciones finales

OmniAvatar representa un hito importante en la tecnología humana digital basada en audio. Sus avances en la generación de animaciones de cuerpo entero, la precisión de la sincronización de la boca y las capacidades de control del texto han sentado unas bases sólidas para la aplicación industrial de la tecnología humana digital. Con la mejora y optimización continuas de la tecnología, tenemos motivos para creer que pronto se hará realidad una experiencia de interacción humana digital más inteligente y natural.

Dirección de código abierto del proyecto:https://github.com/Omni-Avatar/OmniAvatar
Enlace a la ponencia:https://arxiv.org/abs/2506.18866v1
Página de inicio del proyecto:https://omni-avatar.github.io/

Para más productos, visite

Más información en

ShirtAI - Inteligencia penetrante El Gran Modelo AIGC: el comienzo de una era de doble revolución en ingeniería y ciencia - Inteligencia Penetrante
Restauración 1:1 de Claude y GPT Sitio web oficial - AI Cloud Native Live Match App Global HD Sports Viewing Player (Recomendado) - Blueshirt Technology
Servicio de tránsito basado en la API oficial - GPTMeta API Ayuda, ¿alguien de ustedes puede proporcionar algunos consejos sobre cómo hacer preguntas en GPT? - Conocimientos
Tienda digital global de bienes virtuales - Global SmarTone (Feng Ling Ge) ¿Qué tan poderoso es Claude airtfacts característica que GPT al instante no huele bien? -BeepBeep

espacio publicitario

Servicio de agente de tránsito basado en API oficiales

En esta era de apertura e intercambio, OpenAI lidera una revolución en la inteligencia artificial. Ahora, anunciamos al mundo que hemos soportado completamente todos los modelos de OpenAI, por ejemplo, soportando GPT-4-ALL, GPT-4-multimodal, GPT-4-gizmo-*, etc. así como una variedad de grandes modelos de cosecha propia. Y lo que es más emocionante, ¡hemos presentado al mundo el más potente e influyente GPT-4o!

Navegación del sitio

fig. principio
Atraque a terceros
consolas
Instrucciones de uso
Supervisión en línea

Póngase en contacto con nosotros

公众号二维码

número público

企业合作二维码

Cooperación Wechat

Copyright © 2021-2024 Todos los derechos reservados 2024 | GPTMeta API