百度MuseSteamer徹底分析:国内AI動画生成の新たなマイルストーン

バイドゥの商業研究開発チームが発表したマルチモーダル生成モデル「MuseSteamer」は、VBenchのグラフィック動画評価で世界1位を獲得し、中国語の音声と動画の同時生成、洗練された描写システムとスタイル制御において重要なブレークスルーを果たし、優れた意味理解能力を発揮している。MuseSteamerは、レンズのスケジューリング能力がなく、生成速度が遅いという欠点があるものの、国内AI動画技術の発展における重要なマイルストーンであり、ターボ版は無料で体験できるように開放されている。
Veo 3徹底分析:グーグルのAIビデオ生成における画期的なブレークスルー

2025年5月、グーグルはVeo 3を発表し、AI音声と映像の同期生成を初めて実現し、AI映像キャラクターが「話す」ことができるようになった。モデルのブレークスルーには、4K画像、物理的整合性、音声同期などが含まれ、V2A技術を使って映像ビジュアルを意味信号として符号化し、一致する音声トラックを生成し、トークショー、ゲーム実況、コンサートなどのシーンに適用する。複雑なアクションの生成には欠陥があるが、商業化の見込みは大きく、段階的な価格設定により、従来の広告業界や映画制作業界に影響を与える。