OmniAvatar:让静态照片活起来的AI数字人技术突破

OmniAvatar es un sistema humano digital acústico desarrollado conjuntamente por la Universidad de Zhejiang y Alibaba Group, capaz de generar vídeos naturales y fluidos de cuerpo entero a partir de fotos, audio y texto. En comparación con la tecnología tradicional de "avatar parlante", el sistema logra avances en la coordinación del movimiento corporal, la sincronización de audio/vídeo de alta precisión y el control de texto. El sistema ha sido probado y ha demostrado ser líder en calidad de imagen, fluidez de vídeo y sincronización de la boca, y es actualmente el único modelo que puede generar de forma sincrónica animaciones faciales y de todo el cuerpo. El proyecto es de código abierto y el artículo se ha publicado en arXiv.