Recentemente, a AliCloud lançou oficialmente o seu mais recente modelo de IA multimodal, Qwen-VLo, que causou uma forte reação na comunidade de IA após o seu lançamento. Muitos utilizadores afirmaram, após a sua primeira experiência, que o desempenho do modelo na geração de imagens ultrapassou mesmo o do GPT-4o, demonstrando capacidades criativas incríveis.
Como a mais recente conquista da AliCloud no campo da IA multimodal, o Qwen-VLo não só herda as vantagens do seu antecessor na compreensão e geração de imagens, como também alcança melhorias significativas em várias dimensões, como a experiência de interação do utilizador, a precisão da edição e o suporte linguístico. Atualmente, o modelo foi aberto gratuitamente para os utilizadores globais experimentarem, e os utilizadores podem utilizá-lo diretamente através da plataforma Qwen Chat.
Caraterísticas técnicas e destaques inovadores
Vantagem tecnológica principal
A Qwen-VLo alcançou uma série de avanços na sua arquitetura técnica e as suas principais vantagens podem ser resumidas da seguinte forma
Dimensões caraterísticas | expressão concreta | Vantagem técnica |
---|---|---|
pormenorização | Captura de detalhes melhorada | Elevada consistência semântica ao longo do processo de geração |
função de edição | Edição de imagens com um único comando | Suporta conversão de estilos, adição e eliminação de elementos, adição de texto e outras operações |
Apoio linguístico | compatibilidade multilingue | Melhorar a experiência global do utilizador através da cobertura de várias línguas, incluindo o inglês e o chinês |
Resolução Adaptação | Suporte de estrutura flexível | As entradas e saídas suportam resoluções e rácios de aspeto arbitrários. |
Atualização da Capacidade de Compreensão Inteligente
Para além das suas capacidades de geração de imagens, o Qwen-VLo também demonstra excelentes capacidades de reconhecimento e interpretação de imagens. O modelo é capaz de identificar com precisão objectos específicos numa imagem, por exemplo, depois de gerar uma imagem com animais de estimação, é capaz de identificar com precisão raças específicas, como gatos tigres e beagles, mostrando a sua profundidade de compreensão visual.
Mais notavelmente, o Qwen-VLo está também equipado com uma função de anotação de imagem que lhe permite detetar e segmentar imagens existentes. Por exemplo, quando o modelo é solicitado a segmentar a borda de uma banana, ele é capaz de marcar com precisão o contorno completo da banana com uma máscara vermelha, e esta capacidade de segmentação semântica precisa fornece uma base sólida para a edição de imagens subsequente.

Teste aprofundado das funções de edição de imagem
Teste de substituição de objectos
Em testes reais, as capacidades de edição de imagem do Qwen-VLo tiveram um bom desempenho. O primeiro teste foi um simples teste de substituição de objectos:
Caso de teste 1: Substituição da bebida
- Tarefa inicial: gerar uma imagem de um urso polar a beber uma Coca-Cola (estilo cartoon)
- Comando de edição: substituir cola por leite
- Resultado do teste: A substituição foi concluída com êxito, o fundo e o corpo principal do urso polar permaneceram basicamente inalterados, apenas a bebida mudou!


Caso de teste dois: substituição de animais
- Tarefa inicial: Gerar fotografias de aves (estilo foto-realista)
- Comando de edição: substituir aves por pombos
- Resultados do teste: A substituição das espécies foi efectuada com precisão e o contexto ambiental foi totalmente coerente


É de salientar que, no teste do terrier "pássaro de alho", embora o modelo não compreendesse o significado da palavra-chave da Internet, ainda tentou executar as instruções básicas de substituição de pássaros e mostrou uma boa capacidade de execução de instruções.

Edição composta em várias etapas
Os testes mais complexos envolvem um processo de criação e edição de imagens em várias etapas:
- Fase de geração de esboçosCriação de esboços de linhas básicas
- Fase de preenchimento de corAcrescentar cor e pormenor aos esboços
- Etapa de adição de textoAdicionar texto chinês a uma imagem
- Fase de correção de textoModificação do texto existente
Ao longo do processo, a Qwen-VLo consegue manter a estabilidade da figura principal e do fundo e, embora haja ligeiras variações nos pormenores, o efeito global da edição é satisfatório. Em particular, o modelo demonstra uma forte compreensão do texto e capacidades de renderização na edição de texto em chinês e inglês.




Explicação das técnicas de geração progressiva
Geração de inovações institucionais
A Qwen-VLo adopta um mecanismo único de geração de imagem progressiva, que não é apenas um efeito visual, mas tem também um valor técnico real. Ao contrário dos efeitos "pseudo-progressivos" de alguns modelos, a geração progressiva da Qwen-VLo é uma verdadeira realização técnica.
Caraterísticas do processo de produção
Observando o processo de geração de imagens do Qwen-VLo, é possível encontrar as seguintes caraterísticas:
- construção de cima para baixo: a imagem é gerada progressivamente para baixo a partir do topo
- Ajustes dinâmicos de otimizaçãoAjustamento e otimização contínuos das previsões durante o processo de produção
- Garantia de coerência semânticaAssegurar a harmonização dos resultados finais
Este mecanismo de geração é particularmente adequado para tarefas de geração de textos longos que exijam um controlo preciso, como a conceção de anúncios ou a produção de subenredos de banda desenhada. O modelo será constantemente auto-corrigido durante o processo de geração, à semelhança do processo de "desenhar enquanto se pensa" na criação humana, e a realização desta "cadeia de pensamento visual" traz novas possibilidades para a criação de IA.

Estudo de caso UX
Desde a experiência aberta do Qwen-VLo, a comunidade de utilizadores tem sido inundada com casos de utilização criativos:
Assistente de desenho criativo
- Os utilizadores carregam esboços desenhados à mão e o modelo é automaticamente colorido e optimizado para os detalhes
- Apoio à conceção de personagens de anime, conversão de estilos e outras necessidades criativas

Produção de material de marketing
- Criar rapidamente cartazes promocionais com texto específico
- Criação de expositores com logótipo de marca, como os painéis promocionais "Qwen Chat

Criação de conteúdos de entretenimento
- Criação de mapas de terrier na Internet, suporte para adicionar texto e emoticons populares
- Conversão do estilo de personagens de cinema e televisão, como a remodelação do estilo de animação Ghibli


Uma caraterística importante do Qwen-VLo é o facto de baixar o limiar de utilização da criação de imagens por IA. Os utilizadores não necessitam de competências complexas de engenharia de prontidão, mas apenas de descrever as suas necessidades em linguagem natural para obterem resultados satisfatórios. Este modo de "criação em conversação" permite que os utilizadores comuns experimentem facilmente a diversão da criação com IA.
Atualmente, os utilizadores podem aceder ao https://chat.qwen.ai/ Experimente todo o poder do Qwen-VLo gratuitamente e sinta o apelo inovador desta tecnologia de IA multimodal.