Análise aprofundada do Baidu MuseSteamer: um novo marco na produção nacional de vídeos com IA

O MuseSteamer, um modelo de geração multimodal lançado pela equipa comercial de I&D da Baidu, alcançou o primeiro lugar mundial na avaliação de vídeo gráfico da VBench, e fez importantes avanços na geração simultânea de áudio e vídeo chineses, sistema de descrição refinado e controlo de estilo, e demonstrou capacidades superiores de compreensão semântica. Apesar da falta de capacidade de programação de lentes e da lenta velocidade de geração, o MuseSteamer continua a ser um marco importante no desenvolvimento da tecnologia doméstica de vídeo com IA, e a versão Turbo foi aberta para ser experimentada gratuitamente.
Análise aprofundada do Veo 3: um avanço histórico na geração de vídeo com IA da Google

Em maio de 2025, a Google lançou o Veo 3, a primeira vez que se consegue uma geração síncrona de áudio e vídeo de IA, para que os personagens de vídeo de IA possam "falar". Os avanços do modelo incluem imagem 4K, consistência física e sincronização de som, etc., utilizando a tecnologia V2A para codificar imagens de vídeo como sinais semânticos, gerando faixas de áudio correspondentes e aplicando-as a programas de entrevistas, jogos ao vivo, concertos e outras cenas. Embora existam deficiências na geração de acções complexas, as perspectivas de comercialização são significativas, com preços diferenciados, com impacto nas indústrias tradicionais de publicidade e produção cinematográfica.