Recentemente, a equipa do Ali Tongyi Thousand Questions lançou uma nova geração do grande modelo Qwen 3, que ocupou o topo do trono global de modelos de código aberto aquando do seu lançamento. Em comparação com o seu antecessor, o Qwen 3 fez avanços significativos na capacidade de inferência, suporte multilingue e custo de implementação, etc. O desempenho do seu modelo principal Qwen3-235B-A22B é comparável ou até ultrapassa o de modelos de topo como o DeepSeek-R1, o o1 da OpenAI, o o3-mini, o Grok-3 da XAI e o Gemini-2.5-Pro da Google. modelos.

Família Qwen 3 totalmente de código aberto
A família de modelos Qwen 3 continua a ser de fonte aberta ao abrigo do protocolo Apache 2.0, o que permite aos programadores, organizações de investigação e empresas de todo o mundo descarregar e comercializar os modelos gratuitamente. A família Qwen 3 de código aberto inclui dois modelos MoE e seis modelos densos:
- Modelo do MdE::
- Qwen3-235B-A22B (235B total, 22B ativado)
- Qwen3-30B-A3B (número total de participantes 30B, número de participantes activados 3B)
- modelação intensiva::
- Qwen3-32B
- Qwen3-14B
- Qwen3-8B
- Qwen3-4B
- Qwen3-1.7B
- Qwen3-0.6B

É de salientar que, embora o Qwen3-235B-A22B tenha um número total de referências muito superior ao de outros modelos de código aberto, o seu custo de implementação efetivo é drasticamente inferior - apenas são necessários quatro H20s para implementar a versão completa e a memória de vídeo ocupa apenas um terço da de um modelo com desempenho semelhante.
Desempenho superior em todos os parâmetros de referência
A série Qwen 3 teve um bom desempenho em várias análises profissionais e estabeleceu uma série de recordes de modelos de código aberto:
- O Qwen3 obteve 81,5 pontos na avaliação AIME25 no nível OU, estabelecendo um novo recorde de código aberto!
- Na avaliação do LiveCodeBench, que avalia a capacidade do código, o Qwen3 ultrapassou a marca dos 70 pontos e superou o Grok-3.
- O Qwen3 superou o OpenAI-o1 e o DeepSeek-R1 com uma pontuação de 95,6 na medida ArenaHard, que avalia o alinhamento das preferências humanas do modelo
- Na análise BFCL, que avalia a capacidade de agente de um modelo, o Qwen3 atingiu um novo máximo de 70,8, ultrapassando modelos de topo como o Gemini2.5-Pro e o OpenAI-o1
Mesmo os modelos mais pequenos, como o Qwen3-4B, igualam o desempenho do Qwen2.5-72B-Instruct, demonstrando ganhos de eficiência significativos. O modelo MoE mais pequeno Qwen3-30B-A3B tem apenas um décimo do número de parâmetros de ativação do QwQ-32B, mas tem um desempenho ainda melhor.

Modelo inovador de "raciocínio híbrido
Uma das maiores inovações do Qwen3 é a introdução do modo de "raciocínio misto", que permite alternar sem problemas entre os modos de pensar e não pensar:
- padrão de pensamentoModelação do raciocínio passo a passo para dar uma resposta final após uma análise cuidadosa, adequada para problemas complexos que exigem uma reflexão aprofundada
- modus vivendiOs modelos fornecem uma resposta rápida e quase instantânea para problemas simples em que a velocidade é necessária acima da profundidade
Os utilizadores podem controlar de forma flexível o processo de inferência do modelo de acordo com a complexidade da tarefa e até definir o "think budget" (ou seja, o número de tokens que se espera pensar com a profundidade máxima) para encontrar o melhor equilíbrio entre desempenho e custo. Os testes de referência mostram que o modo "pensar" melhora significativamente o desempenho do modelo em tarefas como o AIME24, o AIME25, o LiveCodeBech (v5) e o GPQA Diamond.
Ali fornece um mecanismo simples de comutação suave que permite ao utilizador controlar dinamicamente o modo de pensamento do modelo, adicionando etiquetas "/think" e "/no_think" ao diálogo.

Suporte multilingue e melhoria das capacidades do agente
O modelo Qwen3 suporta 119 línguas e dialectos, alargando significativamente o seu potencial de aplicação global. Ao mesmo tempo, as capacidades de agente e de código do modelo foram significativamente melhoradas:
- Suporte nativo para o protocolo MCP
- Poderosas capacidades de invocação de ferramentas
- Trabalhar com a estrutura Qwen-Agent para reduzir significativamente a complexidade da codificação
- Atinge um desempenho de topo em tarefas complexas baseadas em inteligências
Sólida base técnica: pré-formação de 36 biliões de fichas
O desempenho superior do Qwen3 baseia-se em enormes dados de formação e num processo de formação bem concebido:
- O volume de dados de pré-treino atinge 36 triliões de fichas, quase o dobro do Qwen 2.5
- Cobertura de 119 línguas e dialectos
- Informações de alta qualidade extraídas de documentos como PDFs, para além de dados da Web
- Geração de grandes quantidades de dados sintéticos com Qwen2.5-Math e Qwen2.5-Coder para capacidades matemáticas e de código melhoradas
O processo de pré-treino divide-se em três fases:
- Criação de capacidades linguísticas básicas: pré-treino em mais de 30 biliões de tokens com comprimento de contexto de 4K tokens
- Otimização do conhecimento denso: aumentar a proporção de dados para tarefas STEM, de programação e de raciocínio, etc., e continuar a formação com mais 5 biliões de fichas
- Extensão da capacidade de contexto: utilizar dados de contexto longos de alta qualidade para aumentar o comprimento do contexto para 32K tokens
A fase pós-formação utiliza um processo de quatro fases que inclui o arranque a frio da cadeia de pensamento longo, a aprendizagem por reforço da cadeia de pensamento longo, a fusão de padrões de pensamento e a aprendizagem por reforço genérico para criar modelos híbridos capazes de raciocínio complexo e resposta rápida.

Resposta da comunidade e experiência prática
O Qwen3 foi aberto em menos de 3 horas, e o GitHub obteve 17 mil estrelas, desencadeando uma resposta esmagadora da comunidade de código aberto. O engenheiro da Apple, Awni Hannun, anunciou que o Qwen3 é agora suportado pela estrutura MLX, permitindo que todos os tipos de dispositivos Apple, desde o iPhone ao M2/M3 Ultra, executem nativamente modelos Qwen3 de diferentes especificações.
Vários testes do mundo real mostraram que o Qwen3 pode lidar facilmente com problemas de raciocínio complexos, como provas matemáticas e tarefas de programação. Por exemplo, numa tarefa de programação complexa (escrever um jogo Snake com uma funcionalidade de perseguição ao Pinto), o Qwen3-235B-A22B forneceu código executável em apenas cerca de 3 minutos.
Alguns utilizadores testaram-no e verificaram que, em comparação com o modelo Llama com o mesmo número de parâmetros, o Qwen3 apresenta vantagens significativas, raciocinando mais profundamente, mantendo contextos mais longos e resolvendo problemas mais difíceis.
Diretrizes de utilização
O modelo Qwen3 está agora disponível em linha na comunidade MagicBuilder, Hugging Face e GitHub:
- Experiência online:https://chat.qwen.ai/
- Comunidade do Magic Match:https://modelscope.cn/collections/Qwen3-9743180bdc6b48
- Cara de abraço:https://huggingface.co/collections/Qwen/qwen3-67dd247413f0e2e4f653967f
- GitHub:https://github.com/QwenLM/Qwen3
Para implantação, estruturas como SGLang e vLLM são oficialmente recomendadas; para uso local, ferramentas como Ollama, LMStudio, MLX, llama.cpp e KTransformers são recomendadas.
Estas ferramentas asseguram que os utilizadores podem facilmente integrar o Qwen3 numa variedade de fluxos de trabalho, seja para ambientes de investigação, desenvolvimento ou produção. Um exemplo padrão de uso da biblioteca de transformadores é mostrado abaixo:
from modelscope import AutoModelForCausalLM, AutoTokenizer
nome_do_modelo = "Qwen/Qwen3-30B-A3B"
# carregar o tokenizador e o modelo
tokeniser = AutoTokenizer.from_pretrained(nome_do_modelo)
model = AutoModelForCausalLM.from_pretrained(
nome_do_modelo, torch_dtype="auto")
torch_dtype="auto",
device_map="auto"
)
# preparar a entrada do modelo
prompt = "Dê-me uma breve introdução ao modelo de linguagem grande".
mensagens = [
{"role": "user", "content": prompt}
mensagens = [ {"role": "user", "content": prompt} ]
text = tokenizer.apply_chat_template(
mensagens, tokenise=False, text = tokenizer.apply_chat_template(
tokenise=False,
add_generation_prompt=True, enable_thinking=True 1TP
enable_thinking=True # Alternar entre os modos de pensar e não pensar. A predefinição é Verdadeiro.
A predefinição é Verdadeiro.)
observações finais
Até à data, Ali Tongyi já disponibilizou mais de 200 modelos, com mais de 300 milhões de descargas a nível mundial e mais de 100 000 modelos derivados de mil perguntas, ultrapassando Llama nos EUA para se tornar o modelo de fonte aberta n.º 1 do mundo. A disponibilização do Qwen3 não só marca outro grande avanço na tecnologia de IA da China, como também fornece à comunidade global de programadores de IA uma nova e poderosa ferramenta para promover a prosperidade do ecossistema de fonte aberta.
