OmniAvatar: Der Durchbruch in der KI-Technologie für digitale Menschen, die Fotos zum Leben erweckt

Mit der rasanten Entwicklung der Technologie der künstlichen Intelligenz hat der Bereich der Erzeugung digitaler menschlicher Videos einen wichtigen Meilenstein erreicht. Das OmniAvatar-System, das gemeinsam von der Zhejiang-Universität und der Alibaba-Gruppe entwickelt wurde, hat erfolgreich die Erzeugung natürlicher und fließender Ganzkörper-Bewegungsvideos mit nur einem statischen Foto und einem Stück Ton realisiert und damit neue Möglichkeiten für die Technologie des virtuellen digitalen Menschen eröffnet.

Innovationen in der digitalen Humantechnologie: von "sprechenden Köpfen" zu "Ganzkörper-Performances"

Engpässe bei traditionellen Methoden

Lange Zeit haben sich audiogestützte Techniken zur Erzeugung von Porträtvideos auf die Animation von Gesichtsbereichen konzentriert, die oft als "Talking Head"-Techniken bezeichnet werden. Mit diesem Ansatz wird zwar eine grundlegende Mundsynchronisation erreicht, er hat jedoch die folgenden wesentlichen Einschränkungen:

  • Eingeschränkter BewegungsumfangMimik: steuert nur Veränderungen des Gesichtsausdrucks, nicht aber koordinierte Körperbewegungen
  • Unzureichende SynchronisationsgenauigkeitKomplexer Sprachinhalt und Anpassung der Mundform müssen verbessert werden
  • Begrenzte Fähigkeit zur KontrolleSchwierigkeiten bei der Feinsteuerung von Bewegung, Stimmung und Kontext durch textuelle Hinweise

Die innovativen Durchbrüche von OmniAvatar

OmniAvatar, ein effizientes audio-gesteuertes System, das auf der LoRA-Technologie (Low-Rank Adaptation) basiert, durchbricht erfolgreich die Beschränkungen traditioneller Methoden. Das System ist in der Lage, drei Eingaben zu verarbeiten: ein Standfoto einer Person, eine Audiodatei und eine Texteingabe, um dann ein vollständiges Video mit natürlichen Körperbewegungen zu erzeugen.

Vergleich der Hauptstärken:

Technische MerkmaleTraditionelle MethodenOmniAvatar
Animation UmfangNur GesichtsbereichGanzkörperkoordination
AudiosynchronisationBasic Mouth MatchingHochpräziser Audio- und Videoabgleich
Flexibilität kontrollierenEinzelner AudiotreiberDuale Steuerung von Audio und Text
VideodauerClip-ErstellungUnterstützt die kontinuierliche Ausgabe langer Videos
IdentitätskonsistenzAnfällig für DriftStabile Beibehaltung der Charaktereigenschaften

Core Technology Architecture: Die perfekte Integration von drei innovativen Technologien

Pixel für Pixel mehrstufige Audioeinbettung

Herkömmliche Methoden zur Audioeinbettung verwenden in der Regel einen Cross-Attention-Mechanismus, bei dem einfach Audiomerkmale mit visuellen Merkmalen vermischt werden.OmniAvatar verwendet eine raffiniertere Strategie:

Technologische Innovationspunkte:

  • Extrahieren von hochwertigen Audiomerkmalen mit dem Wav2Vec2-Modell
  • Entwicklung eines speziellen Audio Pack-Moduls für die Komprimierung und Anpassung von Merkmalen
  • Einbettung von Audioinformationen Pixel für Pixel in mehrere Zeitschichten eines Diffusionsmodells
  • Erhebliche Verbesserung der Präzision der Mundsynchronisation und der Natürlichkeit der Körperbewegungen

LoRA-Feinsteuerungsstrategie

Um ein effizientes Training zu erreichen und gleichzeitig die Fähigkeit zur Modellerstellung aufrechtzuerhalten, setzt OmniAvatar die LoRA-Feinabstimmung ein:

Durchführung des Programms:

  • Matrizen mit niedrigem Rang werden nur in die Aufmerksamkeits- und Feedforward-Netzschichten des Transformer-Modells eingefügt
  • Vermeidet das Risiko der Überanpassung, das mit dem Training von Modellen mit vollem Volumen verbunden sein kann
  • Deutlich verbesserte Audio-Video-Ausrichtung im Vergleich zu einer Lösung, die das Basismodell komplett einfriert
  • Erheblich geringere Ausbildungskosten und weniger Zeitaufwand

Mechanismus zur Erzeugung langer Videos

OmniAvatar hat eine einzigartige Lösung für die Identitätsdrift und Kohärenzprobleme entwickelt, die bei der Erzeugung langer Videos häufig auftreten:

Technische Punkte:

  • Einführung des latenten Referenzbildes als Mechanismus zur Identitätsverankerung
  • Sicherstellung der Konsistenz des Videotimings durch eine Strategie der Bildüberlappung
  • Implementierung eines Algorithmus zur Erzeugung progressiver Bildsegmente
  • Löst effektiv das Problem der Farbabweichung und des kumulativen Fehlers bei langen Videos

Leistung: führende experimentelle Ergebnisse in allen Bereichen

Bewertungssysteme und Datensätze

OmniAvatar wurde anhand mehrerer maßgeblicher Datensätze mit einem branchenweit anerkannten Bewertungssystem gründlich getestet:

Trainingsdaten: Ein sorgfältig geprüfter AVSpeech-Datensatz mit 1.320 Stunden Videoinhalten und etwa 770.000 kurzen Videobeispielen

Testdaten: HDTF-Videodatensatz mit hoher Gesichtsqualität + AVSpeech-Testsatz

Dimensionen der Bewertung:

Kategorie BewertungSpezifische IndikatorenZiele der Bewertung
BildqualitätFID, IQA, ASERealismus und Klarheit der erzeugten Bilder
VideoqualitätFVDGeläufigkeit und Kohärenz der Videosequenzen
Genauigkeit der SynchronisierungSync-C, Sync-DWie gut der Ton zum Mundstück passt

Vergleich der experimentellen Ergebnisse

Leistung der Gesichtsanimation: Sowohl bei den HDTF- als auch bei den AVSpeech-Testsätzen erzielt OmniAvatar die besten Ergebnisse in zwei Schlüsselbereichen: Bildqualität und Mundsynchronisation. Im Vergleich zu bekannten Methoden wie SadTalker und MultiTalk zeigen die generierten Videos einen höheren Realismus und natürlichere Ausdrucksänderungen.

Fähigkeit zur Ganzkörperanimation: Darin liegt der herausragende Vorteil von OmniAvatar. Experimentelle Ergebnisse zeigen, dass das System derzeit das einzige Modell ist, das koordinierte und natürliche Bewegungen des Ober- und Unterkörpers unter Beibehaltung einer hochpräzisen Mundsynchronisation erzeugen kann. Im Vergleich zu konkurrierenden Methoden wie HunyuanAvatar und FantasyTalking löst OmniAvatar erfolgreich das Branchenproblem "Kopfbewegung".

Experimentelle Überprüfung der Ablation

Durch detaillierte Ablationsexperimente verifizierte das Forschungsteam die Wirksamkeit der einzelnen Technologiekomponenten:

  • Die Vorteile der LoRA-Strategie liegen auf der HandOptimales Gleichgewicht zwischen Ausbildungseffizienz und Erzeugungsqualität
  • Mehrschichtige Einbettung ist effektivBessere Erfassung von zeitlichen Merkmalen und semantischer Hierarchie im Vergleich zu einschichtigen Einbettungsmethoden
  • Auswirkungen der ParameteranpassungAngemessene CFG-Parameter können den Synchronisationseffekt verstärken, aber ein zu hoher Wert kann zu überzogenen Ausdrücken führen.

Fallstudien

Die technische Herausforderung

OmniAvatar hat zwar erhebliche Fortschritte gemacht, steht aber noch vor einer Reihe von technischen Herausforderungen:

Technische Einschränkungen:

  • Lange VideostabilitätFarbdriftproblem des Basismodells bei der Erzeugung langer Videos geerbt
  • Multiplayer-InteraktionKontrolle von Szenarien mit mehreren Charakteren muss verbessert werden
  • Echtzeit-PerformanceHohe Latenzzeit bei den Schlussfolgerungen, schwierig, die Anforderungen von Echtzeitanwendungen zu erfüllen
  • SprechererkennungIdentitätsunterscheidung in Szenarien mit mehreren Sprechern muss verbessert werden

Richtungen für die Entwicklung: Künftige technische Optimierungen werden sich auf die Verbesserung der Stabilität langer Videos, die Verbesserung der Steuerung von Multiplayer-Interaktionen, die Optimierung der Inferenzgeschwindigkeit für Echtzeitanwendungen und die Verbesserung der Genauigkeit der Sprechererkennung konzentrieren.

Schlussbemerkungen

OmniAvatar stellt einen wichtigen Meilenstein in der audiogestützten digitalen Menschentechnologie dar. Seine Durchbrüche bei der Erzeugung von Ganzkörperanimationen, der Genauigkeit der Mundsynchronisation und den Textsteuerungsmöglichkeiten haben eine solide Grundlage für die industrielle Anwendung der digitalen Menschentechnologie geschaffen. Mit der kontinuierlichen Verbesserung und Optimierung der Technologie haben wir Grund zu der Annahme, dass eine intelligentere und natürlichere digitale menschliche Interaktionserfahrung bald Realität sein wird.

Adresse des Projekts Open Source:https://github.com/Omni-Avatar/OmniAvatar
Link zum Papier:https://arxiv.org/abs/2506.18866v1
Projekt-Homepage:https://omni-avatar.github.io/

Weitere Produkte finden Sie unter

Siehe mehr unter

ShirtAI - Durchdringende Intelligenz Das AIGC Big Model: der Beginn einer Ära der doppelten Revolution in Technik und Wissenschaft - Penetrating Intelligence
1:1 Wiederherstellung von Claude und GPT Offizielle Website - AI Cloud Native Live Match App Global HD Sports Viewing Player (empfohlen) - Blueshirt Technology
Transitdienst auf der Grundlage der offiziellen API - GPTMeta API Hilfe, kann jemand von Ihnen Tipps geben, wie man Fragen auf GPT stellt? - Wissen
Global Virtual Goods Digital Store - Global SmarTone (Feng Ling Ge) Wie leistungsfähig ist Claude airtfacts, dass GPT sofort nicht mehr gut riecht? -BeepBeep

Werbefläche

Transit Agent Service basierend auf offiziellen APIs

In dieser Ära der Offenheit und des Teilens führt OpenAI eine Revolution in der künstlichen Intelligenz an. Jetzt geben wir der Welt bekannt, dass wir alle Modelle von OpenAI vollständig unterstützt haben, z.B. GPT-4-ALL, GPT-4-multimodal, GPT-4-gizmo-*, etc. sowie eine Vielzahl von selbstentwickelten großen Modellen. Am aufregendsten ist, dass wir das leistungsfähigere und einflussreichere GPT-4o in die Welt eingeführt haben!

Website-Navigation

Abb. Anfang
Andocken von Dritten
Konsolen
Anweisungen für den Gebrauch
Online-Überwachung

Kontakt

公众号二维码

öffentliche Nummer

企业合作二维码

Zusammenarbeit Wechat

Copyright © 2021-2024 Alle Rechte vorbehalten 2024 | GPTMeta API