Qwen-VLo: Um grande lançamento em IA multimodal da AliCloud

Recentemente, a AliCloud lançou oficialmente o seu mais recente modelo de IA multimodal, Qwen-VLo, que causou uma forte reação na comunidade de IA após o seu lançamento. Muitos utilizadores afirmaram, após a sua primeira experiência, que o desempenho do modelo na geração de imagens ultrapassou mesmo o do GPT-4o, demonstrando capacidades criativas incríveis.

Como a mais recente conquista da AliCloud no campo da IA multimodal, o Qwen-VLo não só herda as vantagens do seu antecessor na compreensão e geração de imagens, como também alcança melhorias significativas em várias dimensões, como a experiência de interação do utilizador, a precisão da edição e o suporte linguístico. Atualmente, o modelo foi aberto gratuitamente para os utilizadores globais experimentarem, e os utilizadores podem utilizá-lo diretamente através da plataforma Qwen Chat.

Caraterísticas técnicas e destaques inovadores

Vantagem tecnológica principal

A Qwen-VLo alcançou uma série de avanços na sua arquitetura técnica e as suas principais vantagens podem ser resumidas da seguinte forma

Dimensões caraterísticasexpressão concretaVantagem técnica
pormenorizaçãoCaptura de detalhes melhoradaElevada consistência semântica ao longo do processo de geração
função de ediçãoEdição de imagens com um único comandoSuporta conversão de estilos, adição e eliminação de elementos, adição de texto e outras operações
Apoio linguísticocompatibilidade multilingueMelhorar a experiência global do utilizador através da cobertura de várias línguas, incluindo o inglês e o chinês
Resolução AdaptaçãoSuporte de estrutura flexívelAs entradas e saídas suportam resoluções e rácios de aspeto arbitrários.

Atualização da Capacidade de Compreensão Inteligente

Para além das suas capacidades de geração de imagens, o Qwen-VLo também demonstra excelentes capacidades de reconhecimento e interpretação de imagens. O modelo é capaz de identificar com precisão objectos específicos numa imagem, por exemplo, depois de gerar uma imagem com animais de estimação, é capaz de identificar com precisão raças específicas, como gatos tigres e beagles, mostrando a sua profundidade de compreensão visual.

Mais notavelmente, o Qwen-VLo está também equipado com uma função de anotação de imagem que lhe permite detetar e segmentar imagens existentes. Por exemplo, quando o modelo é solicitado a segmentar a borda de uma banana, ele é capaz de marcar com precisão o contorno completo da banana com uma máscara vermelha, e esta capacidade de segmentação semântica precisa fornece uma base sólida para a edição de imagens subsequente.

Teste aprofundado das funções de edição de imagem

Teste de substituição de objectos

Em testes reais, as capacidades de edição de imagem do Qwen-VLo tiveram um bom desempenho. O primeiro teste foi um simples teste de substituição de objectos:

Caso de teste 1: Substituição da bebida

  • Tarefa inicial: gerar uma imagem de um urso polar a beber uma Coca-Cola (estilo cartoon)
  • Comando de edição: substituir cola por leite
  • Resultado do teste: A substituição foi concluída com êxito, o fundo e o corpo principal do urso polar permaneceram basicamente inalterados, apenas a bebida mudou!

Caso de teste dois: substituição de animais

  • Tarefa inicial: Gerar fotografias de aves (estilo foto-realista)
  • Comando de edição: substituir aves por pombos
  • Resultados do teste: A substituição das espécies foi efectuada com precisão e o contexto ambiental foi totalmente coerente

É de salientar que, no teste do terrier "pássaro de alho", embora o modelo não compreendesse o significado da palavra-chave da Internet, ainda tentou executar as instruções básicas de substituição de pássaros e mostrou uma boa capacidade de execução de instruções.

Edição composta em várias etapas

Os testes mais complexos envolvem um processo de criação e edição de imagens em várias etapas:

  1. Fase de geração de esboçosCriação de esboços de linhas básicas
  2. Fase de preenchimento de corAcrescentar cor e pormenor aos esboços
  3. Etapa de adição de textoAdicionar texto chinês a uma imagem
  4. Fase de correção de textoModificação do texto existente

Ao longo do processo, a Qwen-VLo consegue manter a estabilidade da figura principal e do fundo e, embora haja ligeiras variações nos pormenores, o efeito global da edição é satisfatório. Em particular, o modelo demonstra uma forte compreensão do texto e capacidades de renderização na edição de texto em chinês e inglês.

Explicação das técnicas de geração progressiva

Geração de inovações institucionais

A Qwen-VLo adopta um mecanismo único de geração de imagem progressiva, que não é apenas um efeito visual, mas tem também um valor técnico real. Ao contrário dos efeitos "pseudo-progressivos" de alguns modelos, a geração progressiva da Qwen-VLo é uma verdadeira realização técnica.

Caraterísticas do processo de produção

Observando o processo de geração de imagens do Qwen-VLo, é possível encontrar as seguintes caraterísticas:

  • construção de cima para baixo: a imagem é gerada progressivamente para baixo a partir do topo
  • Ajustes dinâmicos de otimizaçãoAjustamento e otimização contínuos das previsões durante o processo de produção
  • Garantia de coerência semânticaAssegurar a harmonização dos resultados finais

Este mecanismo de geração é particularmente adequado para tarefas de geração de textos longos que exijam um controlo preciso, como a conceção de anúncios ou a produção de subenredos de banda desenhada. O modelo será constantemente auto-corrigido durante o processo de geração, à semelhança do processo de "desenhar enquanto se pensa" na criação humana, e a realização desta "cadeia de pensamento visual" traz novas possibilidades para a criação de IA.

Estudo de caso UX

Desde a experiência aberta do Qwen-VLo, a comunidade de utilizadores tem sido inundada com casos de utilização criativos:

Assistente de desenho criativo

  • Os utilizadores carregam esboços desenhados à mão e o modelo é automaticamente colorido e optimizado para os detalhes
  • Apoio à conceção de personagens de anime, conversão de estilos e outras necessidades criativas

Produção de material de marketing

  • Criar rapidamente cartazes promocionais com texto específico
  • Criação de expositores com logótipo de marca, como os painéis promocionais "Qwen Chat

Criação de conteúdos de entretenimento

  • Criação de mapas de terrier na Internet, suporte para adicionar texto e emoticons populares
  • Conversão do estilo de personagens de cinema e televisão, como a remodelação do estilo de animação Ghibli

Uma caraterística importante do Qwen-VLo é o facto de baixar o limiar de utilização da criação de imagens por IA. Os utilizadores não necessitam de competências complexas de engenharia de prontidão, mas apenas de descrever as suas necessidades em linguagem natural para obterem resultados satisfatórios. Este modo de "criação em conversação" permite que os utilizadores comuns experimentem facilmente a diversão da criação com IA.

Atualmente, os utilizadores podem aceder ao https://chat.qwen.ai/ Experimente todo o poder do Qwen-VLo gratuitamente e sinta o apelo inovador desta tecnologia de IA multimodal.

Para mais produtos, consultar

Ver mais em

ShirtAI - Inteligência penetrante O Grande Modelo do AIGC: inaugurando uma era de dupla revolução na engenharia e na ciência - Penetrating Intelligence
1:1 Restauração de Claude e GPT Site oficial - AI Cloud Native Aplicação de jogos em direto Leitor de visualização de desporto HD global (recomendado) - Blueshirt Technology
Serviço de trânsito baseado na API oficial - API GPTMeta Ajuda, alguém pode dar algumas dicas sobre como fazer perguntas no GPT? - Conhecimento
Loja digital de bens virtuais globais - Global SmarTone (Feng Ling Ge) Quão poderosa é a funcionalidade Claude airtfacts que o GPT instantaneamente não cheira bem? -BeepBeep

espaço publicitário

Serviço de agente de trânsito baseado em APIs oficiais

Nesta era de abertura e partilha, o OpenAI lidera uma revolução na inteligência artificial. Agora, anunciamos ao mundo que suportámos totalmente todos os modelos da OpenAI, por exemplo, suportando GPT-4-ALL, GPT-4-multimodal, GPT-4-gizmo-*, etc., bem como uma variedade de grandes modelos desenvolvidos internamente. O mais interessante é que apresentámos ao mundo o mais poderoso e influente GPT-4o!

Navegação no sítio

fig. início
Atracagem de terceiros
consolas
Instruções de utilização
Monitorização em linha

Contactar-nos

公众号二维码

número público

企业合作二维码

Cooperação Wechat

Direitos de autor © 2021-2024 Todos os direitos reservados 2024 | GPTMeta API