Numa altura em que a IA generativa está a desenvolver-se rapidamente, a tecnologia de geração de vídeo está a tornar-se um novo campo de batalha para as principais empresas de tecnologia competirem. Depois do Sora da OpenAI, que desencadeou um burburinho global, os fornecedores nacionais também lançaram as suas próprias soluções de geração de vídeo com IA. Recentemente, a equipa comercial de I&D da Baidu lançou um grande modelo de geração multimodalMuseSteamerEste produto não só conquistou o primeiro lugar a nível mundial na lista de avaliação autorizada VBench, como também conseguiu a primeira geração simultânea de áudio e vídeo no contexto chinês.

Anatomia das principais capacidades técnicas do MuseSteamer
Poderosa compreensão semântica chinesa
A caraterística mais notável do MuseSteamer é a sua profunda otimização para o contexto chinês. Através da criação de uma base de dados de vídeos de mil milhões de exemplares e da adoção de um sistema de otimização de dados em três fases de "triagem-purificação-correspondência", garante um alinhamento semântico preciso entre as instruções textuais e os elementos visuais. Este processamento de dados direcionado permite que o modelo compreenda com precisão as nuances e as conotações culturais dos sinais chineses.
Sistema de descrição de estruturas de vídeo de granularidade fina
Ao contrário dos principais produtos da indústria, o MuseSteamer adopta um método de descrição de vídeo estruturado, que não só contém detalhes da imagem (tema, fundo, movimento, atmosfera, luz e sombra), mas também integra profundamente elementos profissionais como a linguagem da câmara, a intensidade do movimento do tema e a descrição do estilo. Este sistema de descrição refinado abrange uma vasta gama de tipos de estilo, tais como realista, cinematográfico, cyberpunk, filme vintage, minimalista e anime.
A integração áudio-vídeo gera avanços
Uma das principais inovações do MuseSteamer é a geração síncrona real de áudio e vídeo. Através da programação multimodal e de modelos de aprendizagem de áudio e vídeo integrados, o sistema pode tratar automaticamente as três questões fundamentais de "quem está a falar, como falar e em que ambiente", de modo a que o áudio multipista, como diálogos, sons de fundo, música, etc., seja naturalmente fundido com o conteúdo visual, o que melhora consideravelmente o grau de imersão da experiência do espetador.

Matriz de produtos abrangente para responder a diferentes necessidades
O MuseSteamer oferece uma matriz completa de versões de produtos que cobrem com exatidão as diversas necessidades de criadores individuais a organizações profissionais de cinema e televisão:

Ensaios práticos: capacidades e limitações ao mesmo tempo
Desempenho excecional na compreensão semântica
No teste de compreensão semântica, o MuseSteamer mostrou um desempenho impressionante. Tomando como exemplo "um rapaz do liceu salta para lançar uma bola de basquetebol no recreio ao fim da tarde, a sua figura é esticada pelo sol poente", o modelo reproduz com precisão o fluxo completo da ação de saltar e lançar, a sombra da personagem é consistente com a ação e o efeito de luz e sombra do pôr do sol é natural e realista. O MuseSteamer apresenta uma capacidade de análise semântica mais forte do que produtos semelhantes que apresentam desvios na compreensão da ação.
A continuidade da ação é digna de nota
No teste de "um coelho a bater no teclado, depois pega num copo para beber com uma mão e continua a bater no teclado com a outra mão", o MuseSteamer não só completa a sequência de ação básica, como também acrescenta, de forma independente, expressões faciais ricas e micro-movimentos à personagem, tornando a personagem gráfica estática vívida e animada. Embora a cadeia de ação esteja ligeiramente incompleta, a consistência geral é satisfatória.
Excelente desempenho no controlo do estilo
No teste de estilo de fantasia, o MuseSteamer reproduziu com precisão a descrição da cena: "Em estilo de fantasia, uma menina corre para a frente num unicórnio brilhante através de um vale de bolhas coloridas flutuantes". O vídeo resultante está repleto de uma suave auréola de luz, bolhas coloridas, luz das estrelas, saias esvoaçantes e outros elementos pormenorizados, e o estilo geral é unificado e coordenado.
A capacidade de movimento da lente precisa de ser melhorada
No entanto, o MuseSteamer revela deficiências significativas em termos de manobras de câmara complexas. No teste "câmara à volta do morcego detetive", o modelo quase não conseguiu um movimento de câmara eficaz, o que pode ser devido às limitações técnicas da versão atual. Embora o comando relativamente simples de "diminuir o zoom" possa ser basicamente completado, as extremidades do ecrã apresentam falhas óbvias de emenda.
A eficiência da produção ainda precisa de ser optimizada
A partir da experiência geral de teste, a velocidade de geração do MuseSteamer é relativamente lenta, demorando geralmente 3-5 minutos, o que pode afetar a fluidez do fluxo de trabalho para os utilizadores que precisam de iterar as suas criações rapidamente.
A imagem futura da geração de vídeo com IA
O lançamento do MuseSteamer significa que a tecnologia nacional de geração de vídeo com IA está a aproximar-se rapidamente do nível avançado internacional. Embora ainda haja espaço para melhorias em determinados cenários complexos, os seus avanços na compreensão da semântica chinesa, no controlo do estilo e na sincronização áudio/vídeo estabeleceram uma nova referência para a indústria.
Com o lançamento oficial da versão áudio em agosto e o lançamento sucessivo das versões Pro e Lite, espera-se que o MuseSteamer crie uma ecologia de geração de vídeo com IA que abranja todo o cenário. Para os criadores de conteúdos, isto não significa apenas uma atualização das ferramentas de criação, mas representa também uma mudança fundamental na forma de expressão criativa.
A versão Turbo do MuseSteamer está atualmente disponível gratuitamente na plataforma "EYE", os utilizadores interessados podem visitar huixiang.baidu.com Experimente você mesmo esta revolucionária tecnologia de geração de vídeo com IA.
