Qwen-VLo: Um grande lançamento em IA multimodal da AliCloud

A AliCloud lançou recentemente o seu mais recente modelo de IA multimodal, o Qwen-VLo, cujas capacidades de geração e edição de imagens foram muito bem avaliadas pelos utilizadores, ultrapassando mesmo o GPT-4o. O modelo tem as vantagens de uma captura de detalhes melhorada, edição de imagens com um único comando, suporte multilingue e adaptação flexível da resolução, e tem um bom desempenho no reconhecimento de imagens, substituição de objectos e geração progressiva. Está agora disponível gratuitamente através da plataforma Qwen Chat.
Google Gemini 2.5 Pro: uma evolução multimodal do vídeo para aplicações interactivas

A Google lança a versão 2.5 Pro do Gemini, uma grande conquista no domínio da compreensão multimodal e da geração de código. O modelo supera o concorrente Cl 3.7 Sonnet em termos de capacidades de programação e é particularmente hábil na transformação de conteúdos de vídeo e esboços desenhados à mão em redes totalmente funcionais, melhorando significativamente a eficiência do desenvolvimento. Demonstra uma revolução em áreas como o desenvolvimento Web, a otimização de revisões e a tecnologia educativa, criando um novo paradigma para o desenvolvimento assistido por IA.