SongGeneration: das Open-Source-Tool, das eine neue Ära der KI-Musikproduktion einläutet

Ein neuer Meilenstein in der KI-Musikproduktion

Mit der rasanten Entwicklung der Technologie der künstlichen Intelligenz erfährt der Bereich der Musikproduktion einen beispiellosen Wandel. Kürzlich veröffentlichte das Tencent AI Lab ein Open-Source-Musikgenerierungsmodell namens SongGeneration, eine Innovation, die die Vision "Jeder kann Musik machen" technisch unterstützt.

Die herkömmliche Musikproduktion erfordert oft professionelle Musikkenntnisse und teure Ausrüstung, und das Aufkommen von SongGeneration durchbricht diese Schwellen vollständig. Das Modell ist nicht nur in der Lage, qualitativ hochwertige Musikkompositionen zu erstellen, sondern, was noch wichtiger ist, es steht der gesamten Gesellschaft in Form von Open Source offen, so dass jeder normale Nutzer den Charme der KI-gestützten Musikproduktion erleben kann.

Vor dem Hintergrund der derzeit üblichen Herausforderungen wie schlechte Klangqualität, mangelnde Musikalität und langsame Generierungsgeschwindigkeit in der Musikgenerierungstechnologie hat SongGeneration diese Schlüsselprobleme durch seine innovative technische Architektur und Trainingsmethodik erfolgreich gelöst und damit einen neuen Maßstab für den Bereich der Musik-KI gesetzt.

SongGeneration Modell Erfahrung Adresse:https://huggingface.co/spaces/tencent/SongGeneration

Leistungsstarke Funktionen, die die Musikproduktion zum Kinderspiel machen

SongGeneration ist mit vier Kernfunktionen ausgestattet, von denen jede einzelne die technologische Kompetenz im Bereich der Musikgenerierung demonstriert:

Intelligente Textsteuerung

Durch die Eingabe einer einfachen Kombination von Schlüsselwörtern kann der Nutzer eine komplette Musikkomposition erstellen, die dem gewünschten Stil und der gewünschten Stimmung entspricht. Wenn der Nutzer zum Beispiel "Happy Pop" eingibt, erstellt das System automatisch einen Popsong mit fröhlicher Atmosphäre; wenn der Nutzer "Intensiver Rock" eingibt, wird ein Rockstück mit starkem Rhythmus erzeugt. Diese intuitive Interaktion macht das Erstellen von Musik so einfach wie nie zuvor.

Präzision nach Stil

Mit dieser Funktion können Benutzer einen 10 Sekunden langen oder längeren Referenz-Audioclip hochladen, den SongGeneration eingehend analysiert und ein neues Musikstück mit einem hohen Maß an Konsistenz erzeugt. Egal, ob es sich um Pop, Rock, chinesische Musik oder einen der verschiedenen "heiligen" Stile handelt, das Modell kann deren Wesen genau erfassen und reproduzieren und gleichzeitig sicherstellen, dass die neu generierte Musik eine gute Musikalität aufweist.

Multi-Orbit-Generationstechnologie

SongGeneration erzeugt automatisch getrennte Gesangs- und Backing-Tracks, was für die Musikproduktion von großer Bedeutung ist. Das System gewährleistet ein hohes Maß an melodischer, struktureller, rhythmischer und orchestraler Abstimmung, was die Nachbearbeitung und Abmischung von Musik erheblich erleichtert.

Fähigkeit zum Klonen von Tönen

Mit der referenzbasierten Tonfolge kann SongGeneration Gesangsdarbietungen mit "Tonklon"-Ebenen erzeugen. Die daraus resultierenden Songs klingen nicht nur sehr ähnlich wie die Referenzaufnahmen, sondern haben auch einen natürlichen Klang und eine herausragende Klangqualität sowie eine emotionale Ausdruckskraft.

Revolutionäre Technologiearchitektur und innovative Durchbrüche

Die technische Architektur von SongGeneration besteht aus zwei Kernkomponenten, der Datenverarbeitungspipeline und dem generativen Modell, und erreicht durch eine Reihe innovativer Technologien eine hervorragende Leistung.

Pipeline für die Datenverarbeitung

Das Modell stellt ein komplettes Musikdatenverarbeitungssystem dar, das mehrere Schlüsselmodule wie die Trennung von Audio und Begleitung, die Strukturanalyse und die Erkennung von Liedtexten integriert. Durch diese Pipeline ist das System in der Lage, genau zu extrahieren Text Informationen aus dem rohen Audio, und zur gleichen Zeit erhalten wichtige gekennzeichnete Daten wie Musik-Struktur, Genre-Typ, Klangqualität Ebene, usw., die eine qualitativ hochwertige Datenbasis für die anschließende Modellausbildung bietet.

Codecs mit extrem niedriger Bitrate

SongGeneration hat mit der Entwicklung des branchenweit niedrigsten Zweikanal-48kHz-Musikcodecs für Open-Source-Modelle einen wichtigen Durchbruch im Bereich der Musikcodecs erzielt. Der Codec erzielt die besten heute verfügbaren Musikrekonstruktionsergebnisse bei einer sehr niedrigen Bitrate von nur 25Hz und 0,35kbps, was den Modellierungsaufwand von Sprachmodellen erheblich reduziert.

Das System verfügt über zwei Codierungsmodi, Hybrid und Dual: Hybrid-Modi vereinen die Modellierung von Vocals und Backing Vocals, um sicherzustellen, dass sie harmonisch kohärent sind, während Dual-Modi unabhängig voneinander modelliert werden, um ein klareres Bild der Details zu erhalten.

Parallele Vorhersage von Mehrklassen-Tokens

Das Modell ist der Vorreiter einer parallelen Vorhersagestrategie "zuerst mischen, dann zweispurig" für mehrere Token-Kategorien. Zunächst wird ein Sprachmodell zur Vorhersage von hybriden Token verwendet, das die Gesamtanordnung von hochrangigen Strukturinformationen wie Melodie und Tempo steuert, und dann wird ein erweiterter autoregressiver Decoder zur Modellierung von zweispurigen Token verwendet, der die feinkörnigen Variationen des Gesangs und des Hintergrundgesangs erfasst. Dieses Design ermöglicht eine parallele Vorhersage ohne signifikante Erhöhung der Sequenzlänge und vermeidet gegenseitige Störungen zwischen den Token.

Multidimensionaler Abgleich menschlicher Präferenzen

SongGeneration ist das branchenweit erste große Modell für die Musikgenerierung, das die mehrdimensionalen menschlichen Präferenzen berücksichtigt und sich auf drei Dimensionen konzentriert: Musikalität, Textausrichtung und Konsistenz der Stichworte:

Art der PräferenzKonstruktionsmethodenWirkung
MusikalitätspräferenzTraining von Belohnungsmodellen mit einer kleinen Menge von manuell markierten BewertungsdatenVerbessern Sie die Kunst und das Hörerlebnis beim Erzeugen von Musik
Voreinstellungen für die TextausrichtungBerechnung der Anzahl von Phonemfehlern mit einem vortrainierten ASR-ModellSicherstellen, dass der Text genau zu dem passt, was gesungen wird
Präferenzen für die Konsistenz von StichwortenBerechnung der Text-Audio-Ähnlichkeit mit MuQ-MuLanVerbesserte Modellkonformität mit Benutzeranweisungen

Dreistufiges Ausbildungsparadigma

Das Modell verwendet eine innovative dreiphasige Trainingsstrategie: Die Pre-Trainingsphase konzentriert sich auf den modalen Abgleich verschiedener bedingter Eingaben mit musikalischen Repräsentationen; die modulare Erweiterungs-Trainingsphase trainiert Erweiterungsmodule, um eine parallele Modellierung von zweispurigen Tokens zu erreichen; und die Multi-Präferenz-Abgleich-Trainingsphase integriert menschliche Präferenzen, um das Modell im Hinblick auf die Erzeugung von Musik zu optimieren, die den menschlichen Präferenzen entspricht.

Maßgebliche Anerkennung von Spitzenleistungen

Um die Leistung von SongGeneration umfassend zu bewerten, hat das Tencent AI Lab in Zusammenarbeit mit der School of Music and Recording Arts an der Communication University of China ein umfassendes Bewertungssystem entwickelt, das objektive Analysen und subjektive Wahrnehmungen umfasst.

Objektive Bewertungsergebnisse

In einem objektiven Tool-Review wurde SongGeneration gründlich mit mehreren kommerziellen Modellen (Suno v4.5, Sponge Music, Mureka O1) und Open-Source-Modellen (YuE, DiffRhythm, ACE-Step, SongGen) verglichen:

Dimension der BewertungSongGeneration LeistungRangliste
Produktionsqualität (PQ)talentiertdie Nummer eins sein (beste oder schlechteste)
Inhaltliche Würdigung (CE)talentiertdie Nummer eins sein (beste oder schlechteste)
Inhaltliches Dienstprogramm (CU)talentiertdie Nummer eins sein (beste oder schlechteste)
Produktionskomplexität (PC)günstigBlei

Subjektive Bewertungsergebnisse

SongGeneration schnitt bei den subjektiven manuellen Bewertungen in mehreren Schlüsselbereichen hervorragend ab:

  • Genauigkeit des LiedtextesÜbertrifft viele große Modelle, einschließlich Suno, und beweist damit eine hervorragende Anpassung von Sprache an Text
  • melodische DarbietungHervorragend in Bezug auf Musikalität, emotionalen Ausdruck und Sinn für die musikalische Linie.
  • Qualität der Begleitung: reiche und abwechslungsreiche Orchestrierung und hohe Integration mit dem Hauptthema
  • GesamtleistungVergleichbar mit Sunos neuester Version v4.5, bis hin zum kommerziellen Modell.

Die Testergebnisse zeigen, dass SongGeneration den ersten Platz unter den Open-Source-Modellen einnimmt und auch im Vergleich mit kommerziellen Modellen ganz oben steht, was seine technische Stärke und seinen Anwendungswert unter Beweis stellt.

Offene Ökologie trägt zur Popularisierung der Musikproduktion bei

SongGeneration ist nicht nur technologisch fortschrittlich, sondern, was noch wichtiger ist, es steht der Community mit einem vollständig offenen Quellcode-Ansatz offen, was der Entwicklung des Musik-KI-Ökosystems einen starken Impuls verleiht.

Ansatz für plattformübergreifende Erfahrungen

Derzeit können die Nutzer SongGeneration über mehrere Kanäle erleben:

Als Open-Source-Projekt eröffnet SongGeneration einen neuen Weg für die Entwicklung des Bereichs Musik-KI. Es senkt nicht nur die technische Schwelle für die Musikproduktion, sondern bietet auch leistungsstarke Basiswerkzeuge für Forscher und Entwickler. Mit dem kontinuierlichen Beitrag der Community und der ständigen Weiterentwicklung der Technologie haben wir Grund zu der Annahme, dass SongGeneration die gesamte Musikproduktionsindustrie in eine intelligentere und populärere Richtung bringen wird.

Dieser Meilenstein markiert einen bedeutenden Durchbruch in der KI-Musikproduktionstechnologie, der die Vision "Jeder kann Musik kreieren" wahr werden lässt und der Musikindustrie in Zukunft unendliche Möglichkeiten eröffnet.

Weitere Produkte finden Sie unter

Siehe mehr unter

ShirtAI - Durchdringende Intelligenz Das AIGC Big Model: der Beginn einer Ära der doppelten Revolution in Technik und Wissenschaft - Penetrating Intelligence
1:1 Wiederherstellung von Claude und GPT Offizielle Website - AI Cloud Native Live Match App Global HD Sports Viewing Player (empfohlen) - Blueshirt Technology
Transitdienst auf der Grundlage der offiziellen API - GPTMeta API Hilfe, kann jemand von Ihnen Tipps geben, wie man Fragen auf GPT stellt? - Wissen
Global Virtual Goods Digital Store - Global SmarTone (Feng Ling Ge) Wie leistungsfähig ist Claude airtfacts, dass GPT sofort nicht mehr gut riecht? -BeepBeep

Werbefläche

Transit Agent Service basierend auf offiziellen APIs

In dieser Ära der Offenheit und des Teilens führt OpenAI eine Revolution in der künstlichen Intelligenz an. Jetzt geben wir der Welt bekannt, dass wir alle Modelle von OpenAI vollständig unterstützt haben, z.B. GPT-4-ALL, GPT-4-multimodal, GPT-4-gizmo-*, etc. sowie eine Vielzahl von selbstentwickelten großen Modellen. Am aufregendsten ist, dass wir das leistungsfähigere und einflussreichere GPT-4o in die Welt eingeführt haben!

Website-Navigation

Abb. Anfang
Andocken von Dritten
Konsolen
Anweisungen für den Gebrauch
Online-Überwachung

Kontakt

公众号二维码

öffentliche Nummer

企业合作二维码

Zusammenarbeit Wechat

Copyright © 2021-2024 Alle Rechte vorbehalten 2024 | GPTMeta API