OmniAvatar: a inovação tecnológica humana digital de IA que dá vida a fotografias estáticas

Com o rápido desenvolvimento da tecnologia de inteligência artificial, o campo da geração de vídeo humano digital atingiu um marco importante. O sistema OmniAvatar, desenvolvido conjuntamente pela Universidade de Zhejiang e pelo Grupo Alibaba, conseguiu criar um vídeo de movimento natural e suave de corpo inteiro apenas com uma fotografia estática e um ficheiro de áudio, abrindo novas possibilidades para a tecnologia de humanos digitais virtuais.

Inovações na tecnologia humana digital: das "cabeças falantes" aos "espectáculos de corpo inteiro"

Entraves nos métodos tradicionais

Durante muito tempo, as técnicas de geração de vídeo de retrato com base no áudio concentraram-se na animação de áreas faciais, muitas vezes referidas como técnicas de "Cabeça Falante". Embora esta abordagem consiga uma sincronização básica da boca, tem as seguintes limitações significativas:

  • Amplitude de movimento limitada: apenas provoca alterações na expressão facial, não nos movimentos corporais coordenados
  • Precisão de sincronização insuficienteA correspondência entre o conteúdo complexo do discurso e a forma da boca precisa de ser melhorada
  • Capacidade limitada de controloDificuldade em conseguir um controlo fino do movimento, do humor e do contexto através de pistas textuais

Os avanços inovadores da OmniAvatar

O OmniAvatar, um sistema eficiente de áudio baseado na tecnologia LoRA (Low-Rank Adaptation), consegue ultrapassar as limitações dos métodos tradicionais. O sistema é capaz de receber três entradas: uma fotografia de uma pessoa, um ficheiro de áudio e uma mensagem de texto, e depois gerar um vídeo completo com movimentos naturais do corpo.

Comparação dos principais pontos fortes:

Caraterísticas técnicasMétodos tradicionaisOmniAvatar
Âmbito de aplicação da animaçãoApenas a zona do rostoCoordenação total do corpo
sincronização áudioCorrespondência básica da bocaAlinhamento de áudio e vídeo de alta precisão
Flexibilidade de controloControlador de áudio únicoControlo duplo de áudio + texto
duração do vídeoGeração de clipsSuporta saída contínua de vídeo longo
coerência de identidadePropensão para a derivaRetenção estável dos traços de carácter

Arquitetura de tecnologia central: a integração perfeita de três tecnologias inovadoras

Incorporação de áudio multi-nível pixel a pixel

Os métodos tradicionais de incorporação de áudio empregam normalmente um mecanismo de atenção cruzada que simplesmente mistura caraterísticas de áudio com caraterísticas visuais:

Pontos de inovação tecnológica:

  • Extração de caraterísticas de áudio de alta qualidade utilizando o modelo Wav2Vec2
  • Módulo Audio Pack especializado concebido para compressão e alinhamento de caraterísticas
  • Incorporação de informações áudio pixel a pixel em várias camadas de temporização de um modelo de difusão
  • Aumenta significativamente a precisão da sincronização da boca e a naturalidade dos movimentos do corpo

Estratégia de afinação do LoRA

Para conseguir uma formação eficiente, mantendo as capacidades de geração de modelos, a OmniAvatar utiliza o ajuste fino de LoRA:

Execução do programa:

  • As matrizes de baixo grau são inseridas apenas nas camadas da rede de atenção e de alimentação do modelo Transformer
  • Evita o risco de sobreajuste que pode estar associado à formação de modelos de volume total
  • Alinhamento áudio-vídeo significativamente melhorado em comparação com uma solução que congela completamente o modelo de base
  • Redução significativa dos custos de formação e do consumo de tempo

Mecanismo de geração de vídeos longos

A OmniAvatar concebeu uma solução única para os problemas de desvio de identidade e coerência que são comuns na geração de vídeos longos:

Pontos técnicos:

  • Introdução da imagem de referência latente como mecanismo de ancoragem da identidade
  • Assegurar a coerência do tempo de vídeo com a estratégia de sobreposição de fotogramas
  • Implementação de um algoritmo de geração de segmentos de fotogramas progressivos
  • Resolve eficazmente o problema do desvio de cor e do erro cumulativo em vídeos longos

Desempenho: resultados experimentais líderes em todos os sectores

Sistemas de avaliação e conjuntos de dados

O OmniAvatar foi exaustivamente testado em vários conjuntos de dados autorizados, utilizando um sistema de métricas de avaliação reconhecido pelo sector:

Dados de treino: Um conjunto de dados AVSpeech cuidadosamente selecionado que contém 1320 horas de conteúdo de vídeo e cerca de 770 000 amostras de vídeos curtos

Dados de ensaio: Conjunto de dados de vídeo facial de alta qualidade HDTF + conjunto de testes AVSpeech

Dimensões da avaliação:

Categoria de avaliaçãoIndicadores específicosObjectivos de avaliação
qualidade de imagemFID, IQA, ASERealismo e clareza das imagens geradas
qualidade de vídeoFVDFluência e coerência das sequências de vídeo
Precisão de sincronizaçãoSincronização-C, Sincronização-DA correspondência do áudio com a boquilha

Comparação dos resultados experimentais

Desempenho da animação facial: Nos conjuntos de testes HDTF e AVSpeech, o OmniAvatar obtém os melhores resultados em duas métricas fundamentais: qualidade de imagem e sincronização da boca. Em comparação com métodos bem conhecidos, como o SadTalker e o MultiTalk, os vídeos gerados mostram um maior realismo e mudanças de expressão mais naturais.

Capacidade de animação de corpo inteiro: É aqui que reside a vantagem mais notável do OmniAvatar. Os resultados experimentais mostram que o sistema é atualmente o único modelo que pode gerar movimentos coordenados e naturais da parte superior e inferior do corpo, mantendo uma sincronização de alta precisão da boca. Em comparação com os métodos concorrentes, como o HunyuanAvatar e o FantasyTalking, o OmniAvatar resolve com êxito o problema do "movimento da cabeça" no sector.

Verificação experimental da ablação

Através de experiências de ablação detalhadas, a equipa de investigação verificou a eficácia dos componentes individuais da tecnologia:

  • As vantagens da estratégia LoRA são evidentes: equilíbrio ótimo entre a eficácia da formação e a qualidade da produção
  • A incorporação em várias camadas é eficazMelhor captura das caraterísticas temporais e da hierarquia semântica em comparação com os métodos de incorporação de camada única
  • Efeitos do ajustamento dos parâmetros: Parâmetros CFG adequados podem aumentar o efeito de sincronização, mas um valor demasiado elevado pode levar a expressões demasiado exageradas

Estudos de caso

O desafio técnico

Embora o OmniAvatar tenha feito progressos significativos, ainda enfrenta uma série de desafios técnicos:

Limitações técnicas:

  • Estabilidade de vídeos longosHerdou o problema de desvio de cor do modelo de base na geração de vídeos longos
  • interação multijogador: É necessário reforçar o controlo dos cenários com várias personagens
  • desempenho em tempo realLatência de inferência elevada, difícil de satisfazer os requisitos das aplicações em tempo real
  • reconhecimento do orador: A diferenciação da identidade em cenários com vários intervenientes tem de ser melhorada

Direcções para o desenvolvimento: As futuras optimizações técnicas centrar-se-ão na melhoria da estabilidade de vídeos longos, no reforço do controlo das interações multijogadores, na otimização da velocidade de inferência para aplicações em tempo real e na melhoria da precisão do reconhecimento dos oradores.

observações finais

O OmniAvatar representa um marco importante na tecnologia humana digital baseada em áudio. Os seus avanços na geração de animação de corpo inteiro, precisão de sincronização da boca e capacidades de controlo de texto estabeleceram uma base sólida para a aplicação industrial da tecnologia humana digital. Com a melhoria e otimização contínuas da tecnologia, temos razões para acreditar que uma experiência de interação humana digital mais inteligente e natural se tornará em breve uma realidade.

Endereço do projeto de fonte aberta:https://github.com/Omni-Avatar/OmniAvatar
Ligação ao documento:https://arxiv.org/abs/2506.18866v1
Página inicial do projeto:https://omni-avatar.github.io/

Para mais produtos, consultar

Ver mais em

ShirtAI - Inteligência penetrante O Grande Modelo do AIGC: inaugurando uma era de dupla revolução na engenharia e na ciência - Penetrating Intelligence
1:1 Restauração de Claude e GPT Site oficial - AI Cloud Native Aplicação de jogos em direto Leitor de visualização de desporto HD global (recomendado) - Blueshirt Technology
Serviço de trânsito baseado na API oficial - API GPTMeta Ajuda, alguém pode dar algumas dicas sobre como fazer perguntas no GPT? - Conhecimento
Loja digital de bens virtuais globais - Global SmarTone (Feng Ling Ge) Quão poderosa é a funcionalidade Claude airtfacts que o GPT instantaneamente não cheira bem? -BeepBeep

espaço publicitário

Serviço de agente de trânsito baseado em APIs oficiais

Nesta era de abertura e partilha, o OpenAI lidera uma revolução na inteligência artificial. Agora, anunciamos ao mundo que suportámos totalmente todos os modelos da OpenAI, por exemplo, suportando GPT-4-ALL, GPT-4-multimodal, GPT-4-gizmo-*, etc., bem como uma variedade de grandes modelos desenvolvidos internamente. O mais interessante é que apresentámos ao mundo o mais poderoso e influente GPT-4o!

Navegação no sítio

fig. início
Atracagem de terceiros
consolas
Instruções de utilização
Monitorização em linha

Contactar-nos

公众号二维码

número público

企业合作二维码

Cooperação Wechat

Direitos de autor © 2021-2024 Todos os direitos reservados 2024 | GPTMeta API