Um novo marco na criação de música com IA
Com o rápido desenvolvimento da tecnologia de inteligência artificial, o campo da criação musical está a sofrer uma mudança sem precedentes. Recentemente, o Tencent AI Lab lançou um modelo de geração de música de código aberto chamado SongGeneration, uma inovação que fornece um forte apoio técnico à visão de "toda a gente pode criar música".
A criação musical tradicional requer muitas vezes conhecimentos musicais profissionais e equipamento dispendioso, e o aparecimento do SongGeneration veio quebrar completamente estes limites. O modelo não só é capaz de gerar composições musicais de alta qualidade, mas, mais importante ainda, está aberto a toda a sociedade sob a forma de código aberto, para que qualquer utilizador comum possa experimentar o encanto da criação musical assistida por IA.
Tendo como pano de fundo os actuais desafios comuns de desempenho de baixa qualidade de som, falta de musicalidade e velocidade de geração lenta na tecnologia de geração de música, o SongGeneration resolveu com sucesso estes problemas-chave através da sua inovadora arquitetura técnica e metodologia de formação, estabelecendo uma nova referência para o campo da IA musical.
Endereço de experiência do modelo SongGeneration:https://huggingface.co/spaces/tencent/SongGeneration
Funcionalidades poderosas que colocam a criação de música na ponta dos seus dedos
O SongGeneration está equipado com quatro caraterísticas principais, cada uma das quais demonstra a sua proeza tecnológica no domínio da criação de música:
Controlo de texto inteligente
Os utilizadores só precisam de introduzir uma combinação simples de palavras-chave para gerar uma peça de música completa que corresponda ao estilo e à disposição pretendidos. Por exemplo, quando o utilizador introduz "happy pop", o sistema cria automaticamente uma canção pop com um ambiente alegre; quando o utilizador introduz "intense rock", gera uma peça de rock com um ritmo forte. Esta interação intuitiva torna a criação de música mais fácil do que nunca.
Estilo de precisão seguinte
Esta funcionalidade permite aos utilizadores carregar um clip de áudio de referência de 10 segundos ou mais, que o SongGeneration analisa em profundidade e gera uma nova peça de música com um elevado grau de consistência. Quer se trate de pop, rock, chinês ou qualquer um dos vários estilos "sagrados", o modelo consegue captar e reproduzir com exatidão a sua essência, assegurando simultaneamente que a música recém-gerada tem uma boa musicalidade.
Tecnologia de geração multi-órbita
O SongGeneration gera automaticamente faixas vocais e de apoio separadas, uma caraterística de grande importância para a produção musical. O sistema assegura um elevado grau de correspondência melódica, estrutural, rítmica e orquestral, o que facilita grandemente a edição e mistura de música após a produção.
Capacidade de clonagem de tons
O seguimento de tons baseado em referências permite ao SongGeneration gerar actuações vocais que são "clones de tons". As canções resultantes não só soam muito semelhantes ao áudio de referência, como também mantêm um som natural e uma qualidade de som excecional, para além de serem emocionalmente expressivas.


Arquitetura tecnológica revolucionária e avanços inovadores
A arquitetura técnica do SongGeneration consiste em dois componentes principais, o pipeline de processamento de dados e o modelo generativo, e atinge um desempenho superior através de uma série de tecnologias inovadoras.
Pipeline de processamento de dados
O modelo constrói um sistema completo de processamento de dados musicais que integra vários módulos-chave, como a separação áudio-acompanhamento, a análise da estrutura e o reconhecimento das letras. Através deste processo, o sistema é capaz de extrair com precisão a informação da letra do áudio em bruto e, ao mesmo tempo, obter dados rotulados importantes, como a estrutura da música, o tipo de género, o nível de qualidade do som, etc., o que fornece uma base de dados de alta qualidade para o treino subsequente do modelo.

Codecs de taxa de bits ultrabaixa
A SongGeneration alcançou um grande avanço no domínio dos codecs de música ao desenvolver o codec de música de alta qualidade de 48kHz de canal duplo com a taxa de bits mais baixa da indústria para modelação de código aberto. O codec alcança os melhores resultados de reconstrução musical disponíveis atualmente a uma taxa de bits muito baixa de apenas 25Hz e 0,35kbps, reduzindo significativamente a carga de modelação dos modelos linguísticos.
O sistema foi concebido com dois modos de codificação, Híbrido e Duplo: os modos Híbridos unificam a modelação dos vocais e dos backing vocals para garantir que são harmoniosamente coerentes, enquanto os modos Duplos são modelados independentemente uns dos outros para dar uma imagem mais clara dos detalhes.

Previsão paralela de tokens multi-classe
O modelo é pioneiro numa estratégia de previsão paralela de "mix first, double-track second" para múltiplas categorias de tokens. Em primeiro lugar, o modelo de linguagem prevê tokens híbridos para orientar a disposição geral da informação estrutural de alto nível, como a melodia e o ritmo, e, em seguida, o descodificador auto-regressivo alargado modela os tokens de duas faixas para captar as variações finas das vozes e das vozes de apoio. Esta conceção permite uma previsão paralela sem aumentar significativamente o comprimento da sequência e evita a interferência mútua entre tokens.
Alinhamento multidimensional das preferências humanas
O SongGeneration é o primeiro grande modelo de geração de música do sector que alinha as preferências humanas multidimensionais, centrando-se em três dimensões: preferência pela musicalidade, preferência pelo alinhamento das letras e preferência pela consistência das sugestões:
Tipo de preferência | Métodos de construção | efeito |
---|---|---|
preferência musical | Treinar modelos de recompensa com uma pequena quantidade de dados de pontuação rotulados manualmente | Melhorar a arte e a experiência auditiva de gerar música |
Preferências de alinhamento das letras | Cálculo do número de erros de fonemas utilizando um modelo ASR pré-treinado | Assegurar que a letra da música corresponde exatamente ao que está a ser cantado |
Preferências de consistência das pistas | Cálculo da semelhança entre texto e áudio pelo MuQ-MuLan | Melhoria da conformidade do modelo com as instruções do utilizador |
Paradigma de formação em três fases
O modelo adopta uma estratégia inovadora de treino em três fases: a fase de pré-treino centra-se no alinhamento modal de diferentes entradas condicionais com representações musicais; a fase de treino de extensão modular treina módulos de extensão para conseguir uma modelação paralela de tokens de duas pistas; e a fase de treino de alinhamento de preferências múltiplas integra as preferências humanas para otimizar o modelo no sentido de gerar música que corresponda às preferências humanas.
Reconhecimento oficial da excelência do desempenho
Para avaliar de forma abrangente o desempenho da SongGeneration, o Tencent AI Lab, em conjunto com a Escola de Música e Artes de Gravação da Universidade de Comunicação da China, estabeleceu um sistema de avaliação abrangente que inclui análise objetiva e perceção subjectiva.
Resultados objectivos da avaliação
Numa análise objetiva da ferramenta, o SongGeneration foi cuidadosamente comparado com vários modelos comerciais (Suno v4.5, Sponge Music, Mureka O1) e modelos de código aberto (YuE, DiffRhythm, ACE-Step, SongGen):
Dimensão da avaliação | Desempenho do SongGeneration | Classificação |
---|---|---|
Qualidade da produção (PQ) | talentoso | ser o número um (melhor ou pior) |
Apreciação de conteúdos (CE) | talentoso | ser o número um (melhor ou pior) |
Utilidade de conteúdo (CU) | talentoso | ser o número um (melhor ou pior) |
Complexidade da produção (PC) | favorável | chumbo |

Resultados subjectivos da avaliação
A SongGeneration destacou-se em várias dimensões-chave nas avaliações manuais subjectivas:
- Exatidão das letrasSupera o desempenho de muitos modelos de grande dimensão, incluindo o Suno, demonstrando um excelente alinhamento fala-texto
- desempenho melódicoExcelente em termos de musicalidade, expressão emocional e sentido de linha musical.
- qualidade do acompanhamentoorquestração rica e variada e grande integração com o tema principal
- desempenho globalComparável à última versão v4.5 da Suno, até ao nível do modelo comercial.
Os resultados dos testes mostram que o SongGeneration está firmemente no primeiro lugar entre os modelos de código aberto e também está no topo na comparação de modelos comerciais, provando plenamente a sua força técnica e valor de aplicação.

A ecologia aberta ajuda a popularizar a criação musical
O SongGeneration não é apenas tecnologicamente avançado, mas, mais importante ainda, está aberto à comunidade através de uma abordagem de fonte totalmente aberta, injectando uma forte dinâmica no desenvolvimento do ecossistema de IA musical.
Abordagem de experiência multiplataforma
Atualmente, os utilizadores podem experimentar o SongGeneration através de vários canais:
- Plataforma para abraçar o rosto::https://huggingface.co/tencent/SongGeneration
- Repositório de código aberto do GitHub::https://github.com/tencent-ailab/SongGeneration
- trabalho académico::https://arxiv.org/abs/2506.07520
Enquanto projeto de código aberto, o SongGeneration abre um novo caminho para o desenvolvimento do campo da IA musical. Não só reduz o limiar técnico da criação musical, como também fornece ferramentas básicas poderosas para investigadores e programadores. Com a contribuição contínua da comunidade e a iteração contínua da tecnologia, temos razões para acreditar que o SongGeneration irá empurrar toda a indústria de criação musical para uma direção mais inteligente e popularizada.
Este marco assinala um grande avanço na tecnologia de criação musical com IA, concretizando verdadeiramente a visão de que "todos podem criar música" e injectando infinitas possibilidades no desenvolvimento da indústria musical no futuro.