Qwen-VLo: Um grande lançamento em IA multimodal da AliCloud

Recentemente, a AliCloud lançou oficialmente o seu mais recente modelo de IA multimodal, Qwen-VLo, que causou uma forte reação na comunidade de IA após o seu lançamento. Muitos utilizadores afirmaram, após a sua primeira experiência, que o desempenho do modelo na geração de imagens ultrapassou mesmo o do GPT-4o, demonstrando capacidades criativas incríveis.

Como a mais recente conquista da AliCloud no campo da IA multimodal, o Qwen-VLo não só herda as vantagens do seu antecessor na compreensão e geração de imagens, como também alcança melhorias significativas em várias dimensões, como a experiência de interação do utilizador, a precisão da edição e o suporte linguístico. Atualmente, o modelo foi aberto gratuitamente para os utilizadores globais experimentarem, e os utilizadores podem utilizá-lo diretamente através da plataforma Qwen Chat.

Caraterísticas técnicas e destaques inovadores

Vantagem tecnológica principal

A Qwen-VLo alcançou uma série de avanços na sua arquitetura técnica e as suas principais vantagens podem ser resumidas da seguinte forma

Dimensões caraterísticas	expressão concreta	Vantagem técnica
pormenorização	Captura de detalhes melhorada	Elevada consistência semântica ao longo do processo de geração
função de edição	Edição de imagens com um único comando	Suporta conversão de estilos, adição e eliminação de elementos, adição de texto e outras operações
Apoio linguístico	compatibilidade multilingue	Melhorar a experiência global do utilizador através da cobertura de várias línguas, incluindo o inglês e o chinês
Resolução Adaptação	Suporte de estrutura flexível	As entradas e saídas suportam resoluções e rácios de aspeto arbitrários.

Atualização da Capacidade de Compreensão Inteligente

Para além das suas capacidades de geração de imagens, o Qwen-VLo também demonstra excelentes capacidades de reconhecimento e interpretação de imagens. O modelo é capaz de identificar com precisão objectos específicos numa imagem, por exemplo, depois de gerar uma imagem com animais de estimação, é capaz de identificar com precisão raças específicas, como gatos tigres e beagles, mostrando a sua profundidade de compreensão visual.

Mais notavelmente, o Qwen-VLo está também equipado com uma função de anotação de imagem que lhe permite detetar e segmentar imagens existentes. Por exemplo, quando o modelo é solicitado a segmentar a borda de uma banana, ele é capaz de marcar com precisão o contorno completo da banana com uma máscara vermelha, e esta capacidade de segmentação semântica precisa fornece uma base sólida para a edição de imagens subsequente.

Teste aprofundado das funções de edição de imagem

Teste de substituição de objectos

Em testes reais, as capacidades de edição de imagem do Qwen-VLo tiveram um bom desempenho. O primeiro teste foi um simples teste de substituição de objectos:

Caso de teste 1: Substituição da bebida

Tarefa inicial: gerar uma imagem de um urso polar a beber uma Coca-Cola (estilo cartoon)
Comando de edição: substituir cola por leite
Resultado do teste: A substituição foi concluída com êxito, o fundo e o corpo principal do urso polar permaneceram basicamente inalterados, apenas a bebida mudou!

Caso de teste dois: substituição de animais

Tarefa inicial: Gerar fotografias de aves (estilo foto-realista)
Comando de edição: substituir aves por pombos
Resultados do teste: A substituição das espécies foi efectuada com precisão e o contexto ambiental foi totalmente coerente

É de salientar que, no teste do terrier "pássaro de alho", embora o modelo não compreendesse o significado da palavra-chave da Internet, ainda tentou executar as instruções básicas de substituição de pássaros e mostrou uma boa capacidade de execução de instruções.

Edição composta em várias etapas

Os testes mais complexos envolvem um processo de criação e edição de imagens em várias etapas:

Fase de geração de esboçosCriação de esboços de linhas básicas
Fase de preenchimento de corAcrescentar cor e pormenor aos esboços
Etapa de adição de textoAdicionar texto chinês a uma imagem
Fase de correção de textoModificação do texto existente

Ao longo do processo, a Qwen-VLo consegue manter a estabilidade da figura principal e do fundo e, embora haja ligeiras variações nos pormenores, o efeito global da edição é satisfatório. Em particular, o modelo demonstra uma forte compreensão do texto e capacidades de renderização na edição de texto em chinês e inglês.

Explicação das técnicas de geração progressiva

Geração de inovações institucionais

A Qwen-VLo adopta um mecanismo único de geração de imagem progressiva, que não é apenas um efeito visual, mas tem também um valor técnico real. Ao contrário dos efeitos "pseudo-progressivos" de alguns modelos, a geração progressiva da Qwen-VLo é uma verdadeira realização técnica.

Caraterísticas do processo de produção

Observando o processo de geração de imagens do Qwen-VLo, é possível encontrar as seguintes caraterísticas:

construção de cima para baixo: a imagem é gerada progressivamente para baixo a partir do topo
Ajustes dinâmicos de otimizaçãoAjustamento e otimização contínuos das previsões durante o processo de produção
Garantia de coerência semânticaAssegurar a harmonização dos resultados finais

Este mecanismo de geração é particularmente adequado para tarefas de geração de textos longos que exijam um controlo preciso, como a conceção de anúncios ou a produção de subenredos de banda desenhada. O modelo será constantemente auto-corrigido durante o processo de geração, à semelhança do processo de "desenhar enquanto se pensa" na criação humana, e a realização desta "cadeia de pensamento visual" traz novas possibilidades para a criação de IA.

Estudo de caso UX

Desde a experiência aberta do Qwen-VLo, a comunidade de utilizadores tem sido inundada com casos de utilização criativos:

Assistente de desenho criativo

Os utilizadores carregam esboços desenhados à mão e o modelo é automaticamente colorido e optimizado para os detalhes
Apoio à conceção de personagens de anime, conversão de estilos e outras necessidades criativas

Produção de material de marketing

Criar rapidamente cartazes promocionais com texto específico
Criação de expositores com logótipo de marca, como os painéis promocionais "Qwen Chat

Criação de conteúdos de entretenimento

Criação de mapas de terrier na Internet, suporte para adicionar texto e emoticons populares
Conversão do estilo de personagens de cinema e televisão, como a remodelação do estilo de animação Ghibli

Uma caraterística importante do Qwen-VLo é o facto de baixar o limiar de utilização da criação de imagens por IA. Os utilizadores não necessitam de competências complexas de engenharia de prontidão, mas apenas de descrever as suas necessidades em linguagem natural para obterem resultados satisfatórios. Este modo de "criação em conversação" permite que os utilizadores comuns experimentem facilmente a diversão da criação com IA.

Atualmente, os utilizadores podem aceder ao https://chat.qwen.ai/ Experimente todo o poder do Qwen-VLo gratuitamente e sinta o apelo inovador desta tecnologia de IA multimodal.

Para mais produtos, consultar	Ver mais em
ShirtAI - Inteligência penetrante	O Grande Modelo do AIGC: inaugurando uma era de dupla revolução na engenharia e na ciência - Penetrating Intelligence
1:1 Restauração de Claude e GPT Site oficial - AI Cloud Native	Aplicação de jogos em direto Leitor de visualização de desporto HD global (recomendado) - Blueshirt Technology
Serviço de trânsito baseado na API oficial - API GPTMeta	Ajuda, alguém pode dar algumas dicas sobre como fazer perguntas no GPT? - Conhecimento
Loja digital de bens virtuais globais - Global SmarTone (Feng Ling Ge)	Quão poderosa é a funcionalidade Claude airtfacts que o GPT instantaneamente não cheira bem? -BeepBeep

API do GPTMeta

Qwen-VLo: Um grande lançamento em IA multimodal da AliCloud

Caraterísticas técnicas e destaques inovadores

Vantagem tecnológica principal

Atualização da Capacidade de Compreensão Inteligente

Teste aprofundado das funções de edição de imagem

Teste de substituição de objectos

Edição composta em várias etapas

Explicação das técnicas de geração progressiva

Geração de inovações institucionais

Caraterísticas do processo de produção

Estudo de caso UX

Para mais produtos, consultar

Ver mais em

espaço publicitário

API do GPTMeta

Serviço de agente de trânsito baseado em APIs oficiais

Navegação no sítio

fig. início

Atracagem de terceiros

consolas

Instruções de utilização

Monitorização em linha

Ligação amigável

OpenAI

Gémeos

Metaverso GPT

Claude Metaverso

CamisaAI

nuvem de blusa azul

Contactar-nos