SongGeneration：开启AI音乐创作新时代的开源利器

SongGeneration: a ferramenta de código aberto que inaugura uma nova era de criação musical com IA

Um novo marco na criação de música com IA

Com o rápido desenvolvimento da tecnologia de inteligência artificial, o campo da criação musical está a sofrer uma mudança sem precedentes. Recentemente, o Tencent AI Lab lançou um modelo de geração de música de código aberto chamado SongGeneration, uma inovação que fornece um forte apoio técnico à visão de "toda a gente pode criar música".

A criação musical tradicional requer muitas vezes conhecimentos musicais profissionais e equipamento dispendioso, e o aparecimento do SongGeneration veio quebrar completamente estes limites. O modelo não só é capaz de gerar composições musicais de alta qualidade, mas, mais importante ainda, está aberto a toda a sociedade sob a forma de código aberto, para que qualquer utilizador comum possa experimentar o encanto da criação musical assistida por IA.

Tendo como pano de fundo os actuais desafios comuns de desempenho de baixa qualidade de som, falta de musicalidade e velocidade de geração lenta na tecnologia de geração de música, o SongGeneration resolveu com sucesso estes problemas-chave através da sua inovadora arquitetura técnica e metodologia de formação, estabelecendo uma nova referência para o campo da IA musical.

Endereço de experiência do modelo SongGeneration:https://huggingface.co/spaces/tencent/SongGeneration

Funcionalidades poderosas que colocam a criação de música na ponta dos seus dedos

O SongGeneration está equipado com quatro caraterísticas principais, cada uma das quais demonstra a sua proeza tecnológica no domínio da criação de música:

Controlo de texto inteligente

Os utilizadores só precisam de introduzir uma combinação simples de palavras-chave para gerar uma peça de música completa que corresponda ao estilo e à disposição pretendidos. Por exemplo, quando o utilizador introduz "happy pop", o sistema cria automaticamente uma canção pop com um ambiente alegre; quando o utilizador introduz "intense rock", gera uma peça de rock com um ritmo forte. Esta interação intuitiva torna a criação de música mais fácil do que nunca.

Estilo de precisão seguinte

Esta funcionalidade permite aos utilizadores carregar um clip de áudio de referência de 10 segundos ou mais, que o SongGeneration analisa em profundidade e gera uma nova peça de música com um elevado grau de consistência. Quer se trate de pop, rock, chinês ou qualquer um dos vários estilos "sagrados", o modelo consegue captar e reproduzir com exatidão a sua essência, assegurando simultaneamente que a música recém-gerada tem uma boa musicalidade.

Tecnologia de geração multi-órbita

O SongGeneration gera automaticamente faixas vocais e de apoio separadas, uma caraterística de grande importância para a produção musical. O sistema assegura um elevado grau de correspondência melódica, estrutural, rítmica e orquestral, o que facilita grandemente a edição e mistura de música após a produção.

Capacidade de clonagem de tons

O seguimento de tons baseado em referências permite ao SongGeneration gerar actuações vocais que são "clones de tons". As canções resultantes não só soam muito semelhantes ao áudio de referência, como também mantêm um som natural e uma qualidade de som excecional, para além de serem emocionalmente expressivas.

Arquitetura tecnológica revolucionária e avanços inovadores

A arquitetura técnica do SongGeneration consiste em dois componentes principais, o pipeline de processamento de dados e o modelo generativo, e atinge um desempenho superior através de uma série de tecnologias inovadoras.

Pipeline de processamento de dados

O modelo constrói um sistema completo de processamento de dados musicais que integra vários módulos-chave, como a separação áudio-acompanhamento, a análise da estrutura e o reconhecimento das letras. Através deste processo, o sistema é capaz de extrair com precisão a informação da letra do áudio em bruto e, ao mesmo tempo, obter dados rotulados importantes, como a estrutura da música, o tipo de género, o nível de qualidade do som, etc., o que fornece uma base de dados de alta qualidade para o treino subsequente do modelo.

Codecs de taxa de bits ultrabaixa

A SongGeneration alcançou um grande avanço no domínio dos codecs de música ao desenvolver o codec de música de alta qualidade de 48kHz de canal duplo com a taxa de bits mais baixa da indústria para modelação de código aberto. O codec alcança os melhores resultados de reconstrução musical disponíveis atualmente a uma taxa de bits muito baixa de apenas 25Hz e 0,35kbps, reduzindo significativamente a carga de modelação dos modelos linguísticos.

O sistema foi concebido com dois modos de codificação, Híbrido e Duplo: os modos Híbridos unificam a modelação dos vocais e dos backing vocals para garantir que são harmoniosamente coerentes, enquanto os modos Duplos são modelados independentemente uns dos outros para dar uma imagem mais clara dos detalhes.

Previsão paralela de tokens multi-classe

O modelo é pioneiro numa estratégia de previsão paralela de "mix first, double-track second" para múltiplas categorias de tokens. Em primeiro lugar, o modelo de linguagem prevê tokens híbridos para orientar a disposição geral da informação estrutural de alto nível, como a melodia e o ritmo, e, em seguida, o descodificador auto-regressivo alargado modela os tokens de duas faixas para captar as variações finas das vozes e das vozes de apoio. Esta conceção permite uma previsão paralela sem aumentar significativamente o comprimento da sequência e evita a interferência mútua entre tokens.

Alinhamento multidimensional das preferências humanas

O SongGeneration é o primeiro grande modelo de geração de música do sector que alinha as preferências humanas multidimensionais, centrando-se em três dimensões: preferência pela musicalidade, preferência pelo alinhamento das letras e preferência pela consistência das sugestões:

Tipo de preferência	Métodos de construção	efeito
preferência musical	Treinar modelos de recompensa com uma pequena quantidade de dados de pontuação rotulados manualmente	Melhorar a arte e a experiência auditiva de gerar música
Preferências de alinhamento das letras	Cálculo do número de erros de fonemas utilizando um modelo ASR pré-treinado	Assegurar que a letra da música corresponde exatamente ao que está a ser cantado
Preferências de consistência das pistas	Cálculo da semelhança entre texto e áudio pelo MuQ-MuLan	Melhoria da conformidade do modelo com as instruções do utilizador

Paradigma de formação em três fases

O modelo adopta uma estratégia inovadora de treino em três fases: a fase de pré-treino centra-se no alinhamento modal de diferentes entradas condicionais com representações musicais; a fase de treino de extensão modular treina módulos de extensão para conseguir uma modelação paralela de tokens de duas pistas; e a fase de treino de alinhamento de preferências múltiplas integra as preferências humanas para otimizar o modelo no sentido de gerar música que corresponda às preferências humanas.

Reconhecimento oficial da excelência do desempenho

Para avaliar de forma abrangente o desempenho da SongGeneration, o Tencent AI Lab, em conjunto com a Escola de Música e Artes de Gravação da Universidade de Comunicação da China, estabeleceu um sistema de avaliação abrangente que inclui análise objetiva e perceção subjectiva.

Resultados objectivos da avaliação

Numa análise objetiva da ferramenta, o SongGeneration foi cuidadosamente comparado com vários modelos comerciais (Suno v4.5, Sponge Music, Mureka O1) e modelos de código aberto (YuE, DiffRhythm, ACE-Step, SongGen):

Dimensão da avaliação	Desempenho do SongGeneration	Classificação
Qualidade da produção (PQ)	talentoso	ser o número um (melhor ou pior)
Apreciação de conteúdos (CE)	talentoso	ser o número um (melhor ou pior)
Utilidade de conteúdo (CU)	talentoso	ser o número um (melhor ou pior)
Complexidade da produção (PC)	favorável	chumbo

Resultados subjectivos da avaliação

A SongGeneration destacou-se em várias dimensões-chave nas avaliações manuais subjectivas:

Exatidão das letrasSupera o desempenho de muitos modelos de grande dimensão, incluindo o Suno, demonstrando um excelente alinhamento fala-texto
desempenho melódicoExcelente em termos de musicalidade, expressão emocional e sentido de linha musical.
qualidade do acompanhamentoorquestração rica e variada e grande integração com o tema principal
desempenho globalComparável à última versão v4.5 da Suno, até ao nível do modelo comercial.

Os resultados dos testes mostram que o SongGeneration está firmemente no primeiro lugar entre os modelos de código aberto e também está no topo na comparação de modelos comerciais, provando plenamente a sua força técnica e valor de aplicação.

A ecologia aberta ajuda a popularizar a criação musical

O SongGeneration não é apenas tecnologicamente avançado, mas, mais importante ainda, está aberto à comunidade através de uma abordagem de fonte totalmente aberta, injectando uma forte dinâmica no desenvolvimento do ecossistema de IA musical.

Abordagem de experiência multiplataforma

Atualmente, os utilizadores podem experimentar o SongGeneration através de vários canais:

Plataforma para abraçar o rosto::https://huggingface.co/tencent/SongGeneration
Repositório de código aberto do GitHub::https://github.com/tencent-ailab/SongGeneration
trabalho académico::https://arxiv.org/abs/2506.07520

Enquanto projeto de código aberto, o SongGeneration abre um novo caminho para o desenvolvimento do campo da IA musical. Não só reduz o limiar técnico da criação musical, como também fornece ferramentas básicas poderosas para investigadores e programadores. Com a contribuição contínua da comunidade e a iteração contínua da tecnologia, temos razões para acreditar que o SongGeneration irá empurrar toda a indústria de criação musical para uma direção mais inteligente e popularizada.

Este marco assinala um grande avanço na tecnologia de criação musical com IA, concretizando verdadeiramente a visão de que "todos podem criar música" e injectando infinitas possibilidades no desenvolvimento da indústria musical no futuro.

Para mais produtos, consultar	Ver mais em
ShirtAI - Inteligência penetrante	O Grande Modelo do AIGC: inaugurando uma era de dupla revolução na engenharia e na ciência - Penetrating Intelligence
1:1 Restauração de Claude e GPT Site oficial - AI Cloud Native	Aplicação de jogos em direto Leitor de visualização de desporto HD global (recomendado) - Blueshirt Technology
Serviço de trânsito baseado na API oficial - API GPTMeta	Ajuda, alguém pode dar algumas dicas sobre como fazer perguntas no GPT? - Conhecimento
Loja digital de bens virtuais globais - Global SmarTone (Feng Ling Ge)	Quão poderosa é a funcionalidade Claude airtfacts que o GPT instantaneamente não cheira bem? -BeepBeep

API do GPTMeta

SongGeneration: a ferramenta de código aberto que inaugura uma nova era de criação musical com IA

Um novo marco na criação de música com IA

Funcionalidades poderosas que colocam a criação de música na ponta dos seus dedos

Controlo de texto inteligente

Estilo de precisão seguinte

Tecnologia de geração multi-órbita

Capacidade de clonagem de tons

Arquitetura tecnológica revolucionária e avanços inovadores

Pipeline de processamento de dados

Codecs de taxa de bits ultrabaixa

Previsão paralela de tokens multi-classe

Alinhamento multidimensional das preferências humanas

Paradigma de formação em três fases

Reconhecimento oficial da excelência do desempenho

Resultados objectivos da avaliação

Resultados subjectivos da avaliação

A ecologia aberta ajuda a popularizar a criação musical

Abordagem de experiência multiplataforma

Para mais produtos, consultar

Ver mais em

espaço publicitário

API do GPTMeta

Serviço de agente de trânsito baseado em APIs oficiais

Navegação no sítio

fig. início

Atracagem de terceiros

consolas

Instruções de utilização

Monitorização em linha

Ligação amigável

OpenAI

Gémeos

Metaverso GPT

Claude Metaverso

CamisaAI

nuvem de blusa azul

Contactar-nos