Lançamento do Qwen 3: o modelo 235B tem um desempenho superior ao do R1, Grok e o1 com licença Apache 2.0

Recentemente, a equipa do Ali Tongyi Thousand Questions lançou uma nova geração do grande modelo Qwen 3, que ocupou o topo do trono global de modelos de código aberto aquando do seu lançamento. Em comparação com o seu antecessor, o Qwen 3 fez avanços significativos na capacidade de inferência, suporte multilingue e custo de implementação, etc. O desempenho do seu modelo principal Qwen3-235B-A22B é comparável ou até ultrapassa o de modelos de topo como o DeepSeek-R1, o o1 da OpenAI, o o3-mini, o Grok-3 da XAI e o Gemini-2.5-Pro da Google. modelos.

Família Qwen 3 totalmente de código aberto

A família de modelos Qwen 3 continua a ser de fonte aberta ao abrigo do protocolo Apache 2.0, o que permite aos programadores, organizações de investigação e empresas de todo o mundo descarregar e comercializar os modelos gratuitamente. A família Qwen 3 de código aberto inclui dois modelos MoE e seis modelos densos:

  • Modelo do MdE::
    • Qwen3-235B-A22B (235B total, 22B ativado)
    • Qwen3-30B-A3B (número total de participantes 30B, número de participantes activados 3B)
  • modelação intensiva::
    • Qwen3-32B
    • Qwen3-14B
    • Qwen3-8B
    • Qwen3-4B
    • Qwen3-1.7B
    • Qwen3-0.6B

É de salientar que, embora o Qwen3-235B-A22B tenha um número total de referências muito superior ao de outros modelos de código aberto, o seu custo de implementação efetivo é drasticamente inferior - apenas são necessários quatro H20s para implementar a versão completa e a memória de vídeo ocupa apenas um terço da de um modelo com desempenho semelhante.

Desempenho superior em todos os parâmetros de referência

A série Qwen 3 teve um bom desempenho em várias análises profissionais e estabeleceu uma série de recordes de modelos de código aberto:

  • O Qwen3 obteve 81,5 pontos na avaliação AIME25 no nível OU, estabelecendo um novo recorde de código aberto!
  • Na avaliação do LiveCodeBench, que avalia a capacidade do código, o Qwen3 ultrapassou a marca dos 70 pontos e superou o Grok-3.
  • O Qwen3 superou o OpenAI-o1 e o DeepSeek-R1 com uma pontuação de 95,6 na medida ArenaHard, que avalia o alinhamento das preferências humanas do modelo
  • Na análise BFCL, que avalia a capacidade de agente de um modelo, o Qwen3 atingiu um novo máximo de 70,8, ultrapassando modelos de topo como o Gemini2.5-Pro e o OpenAI-o1

Mesmo os modelos mais pequenos, como o Qwen3-4B, igualam o desempenho do Qwen2.5-72B-Instruct, demonstrando ganhos de eficiência significativos. O modelo MoE mais pequeno Qwen3-30B-A3B tem apenas um décimo do número de parâmetros de ativação do QwQ-32B, mas tem um desempenho ainda melhor.

Modelo inovador de "raciocínio híbrido

Uma das maiores inovações do Qwen3 é a introdução do modo de "raciocínio misto", que permite alternar sem problemas entre os modos de pensar e não pensar:

  • padrão de pensamentoModelação do raciocínio passo a passo para dar uma resposta final após uma análise cuidadosa, adequada para problemas complexos que exigem uma reflexão aprofundada
  • modus vivendiOs modelos fornecem uma resposta rápida e quase instantânea para problemas simples em que a velocidade é necessária acima da profundidade

Os utilizadores podem controlar de forma flexível o processo de inferência do modelo de acordo com a complexidade da tarefa e até definir o "think budget" (ou seja, o número de tokens que se espera pensar com a profundidade máxima) para encontrar o melhor equilíbrio entre desempenho e custo. Os testes de referência mostram que o modo "pensar" melhora significativamente o desempenho do modelo em tarefas como o AIME24, o AIME25, o LiveCodeBech (v5) e o GPQA Diamond.

Ali fornece um mecanismo simples de comutação suave que permite ao utilizador controlar dinamicamente o modo de pensamento do modelo, adicionando etiquetas "/think" e "/no_think" ao diálogo.

Suporte multilingue e melhoria das capacidades do agente

O modelo Qwen3 suporta 119 línguas e dialectos, alargando significativamente o seu potencial de aplicação global. Ao mesmo tempo, as capacidades de agente e de código do modelo foram significativamente melhoradas:

  • Suporte nativo para o protocolo MCP
  • Poderosas capacidades de invocação de ferramentas
  • Trabalhar com a estrutura Qwen-Agent para reduzir significativamente a complexidade da codificação
  • Atinge um desempenho de topo em tarefas complexas baseadas em inteligências

Sólida base técnica: pré-formação de 36 biliões de fichas

O desempenho superior do Qwen3 baseia-se em enormes dados de formação e num processo de formação bem concebido:

  • O volume de dados de pré-treino atinge 36 triliões de fichas, quase o dobro do Qwen 2.5
  • Cobertura de 119 línguas e dialectos
  • Informações de alta qualidade extraídas de documentos como PDFs, para além de dados da Web
  • Geração de grandes quantidades de dados sintéticos com Qwen2.5-Math e Qwen2.5-Coder para capacidades matemáticas e de código melhoradas

O processo de pré-treino divide-se em três fases:

  1. Criação de capacidades linguísticas básicas: pré-treino em mais de 30 biliões de tokens com comprimento de contexto de 4K tokens
  2. Otimização do conhecimento denso: aumentar a proporção de dados para tarefas STEM, de programação e de raciocínio, etc., e continuar a formação com mais 5 biliões de fichas
  3. Extensão da capacidade de contexto: utilizar dados de contexto longos de alta qualidade para aumentar o comprimento do contexto para 32K tokens

A fase pós-formação utiliza um processo de quatro fases que inclui o arranque a frio da cadeia de pensamento longo, a aprendizagem por reforço da cadeia de pensamento longo, a fusão de padrões de pensamento e a aprendizagem por reforço genérico para criar modelos híbridos capazes de raciocínio complexo e resposta rápida.

Resposta da comunidade e experiência prática

O Qwen3 foi aberto em menos de 3 horas, e o GitHub obteve 17 mil estrelas, desencadeando uma resposta esmagadora da comunidade de código aberto. O engenheiro da Apple, Awni Hannun, anunciou que o Qwen3 é agora suportado pela estrutura MLX, permitindo que todos os tipos de dispositivos Apple, desde o iPhone ao M2/M3 Ultra, executem nativamente modelos Qwen3 de diferentes especificações.

Vários testes do mundo real mostraram que o Qwen3 pode lidar facilmente com problemas de raciocínio complexos, como provas matemáticas e tarefas de programação. Por exemplo, numa tarefa de programação complexa (escrever um jogo Snake com uma funcionalidade de perseguição ao Pinto), o Qwen3-235B-A22B forneceu código executável em apenas cerca de 3 minutos.

Alguns utilizadores testaram-no e verificaram que, em comparação com o modelo Llama com o mesmo número de parâmetros, o Qwen3 apresenta vantagens significativas, raciocinando mais profundamente, mantendo contextos mais longos e resolvendo problemas mais difíceis.

Diretrizes de utilização

O modelo Qwen3 está agora disponível em linha na comunidade MagicBuilder, Hugging Face e GitHub:

Para implantação, estruturas como SGLang e vLLM são oficialmente recomendadas; para uso local, ferramentas como Ollama, LMStudio, MLX, llama.cpp e KTransformers são recomendadas.

Estas ferramentas asseguram que os utilizadores podem facilmente integrar o Qwen3 numa variedade de fluxos de trabalho, seja para ambientes de investigação, desenvolvimento ou produção. Um exemplo padrão de uso da biblioteca de transformadores é mostrado abaixo:

PHP
from modelscope import AutoModelForCausalLM, AutoTokenizer

nome_do_modelo = "Qwen/Qwen3-30B-A3B"
# carregar o tokenizador e o modelo
tokeniser = AutoTokenizer.from_pretrained(nome_do_modelo)
model = AutoModelForCausalLM.from_pretrained(
        nome_do_modelo, torch_dtype="auto")
        torch_dtype="auto",
        device_map="auto"
)

# preparar a entrada do modelo
prompt = "Dê-me uma breve introdução ao modelo de linguagem grande".
mensagens = [
        {"role": "user", "content": prompt}
mensagens = [ {"role": "user", "content": prompt} ]
text = tokenizer.apply_chat_template(
        mensagens, tokenise=False, text = tokenizer.apply_chat_template(
        tokenise=False,
        add_generation_prompt=True, enable_thinking=True 1TP
        enable_thinking=True # Alternar entre os modos de pensar e não pensar. A predefinição é Verdadeiro.
A predefinição é Verdadeiro.)

observações finais

Até à data, Ali Tongyi já disponibilizou mais de 200 modelos, com mais de 300 milhões de descargas a nível mundial e mais de 100 000 modelos derivados de mil perguntas, ultrapassando Llama nos EUA para se tornar o modelo de fonte aberta n.º 1 do mundo. A disponibilização do Qwen3 não só marca outro grande avanço na tecnologia de IA da China, como também fornece à comunidade global de programadores de IA uma nova e poderosa ferramenta para promover a prosperidade do ecossistema de fonte aberta.

Para mais produtos, consultar

Ver mais em

ShirtAI - Inteligência penetrante O Grande Modelo do AIGC: inaugurando uma era de dupla revolução na engenharia e na ciência - Penetrating Intelligence
1:1 Restauração de Claude e GPT Site oficial - AI Cloud Native Aplicação de jogos em direto Leitor de visualização de desporto HD global (recomendado) - Blueshirt Technology
Serviço de trânsito baseado na API oficial - API GPTMeta Ajuda, alguém pode dar algumas dicas sobre como fazer perguntas no GPT? - Conhecimento
Loja digital de bens virtuais globais - Global SmarTone (Feng Ling Ge) Quão poderosa é a funcionalidade Claude airtfacts que o GPT instantaneamente não cheira bem? -BeepBeep

espaço publicitário

Serviço de agente de trânsito baseado em APIs oficiais

Nesta era de abertura e partilha, o OpenAI lidera uma revolução na inteligência artificial. Agora, anunciamos ao mundo que suportámos totalmente todos os modelos da OpenAI, por exemplo, suportando GPT-4-ALL, GPT-4-multimodal, GPT-4-gizmo-*, etc., bem como uma variedade de grandes modelos desenvolvidos internamente. O mais interessante é que apresentámos ao mundo o mais poderoso e influente GPT-4o!

Navegação no sítio

fig. início
Atracagem de terceiros
consolas
Instruções de utilização
Monitorização em linha

Contactar-nos

公众号二维码

número público

企业合作二维码

Cooperação Wechat

Direitos de autor © 2021-2024 Todos os direitos reservados 2024 | GPTMeta API