Análise aprofundada dos principais "modelos de inferência" de grandes linguagens: ChatGPT vs Grok3 vs Claude3.7 vs Deepseek-R1 vs Gemini 2.0 Pro

I. Introdução

Na era atual de rápido desenvolvimento da IA, vários modelos de grandes linguagens são constantemente iterados e actualizados. Hoje, vamos avaliar em profundidade cinco grandes modelos de topo: ChatGPT o3-mini, Grok3 thinking, Claude3.7 thinking, Deepseek-r1 e Gemini-2.0-Pro, e comparar os seus desempenhos em diferentes cenários em todos os aspectos.

II. Comparação da avaliação e análise aprofundadas

para responder à mesma pergunta utilizando cada um dos modelos do ShirtAI separadamente.O ShirtAI tem acesso ilimitado e gratuito às versões completas do GPT Plus, Claude Pro, Grok Super e Deepseek, e o site oficial está a um clique de distância:www.lsshirtai.com

Título 1:Os trabalhadores de uma fábrica de chá têm de embalar caixas de chá rectangulares com 20 cm de comprimento e largura e 10 cm de altura em caixas de cartão quadradas com dentes de 30 cm de comprimento (medidos a partir do interior). Qual é o número máximo de caixas que cabem numa caixa de cartão? Como é que cabem?

Conclusão:A resposta é 6 caixas, o modelo de raciocínio claude-3.7-thinking ganha, rápido e preciso. O deepseek-r1 é o mais lento mas tem a resposta correta, o Grok3 deepthinking e o O3-mini têm a resposta errada.

 

Título 2:A função $$f(x) = e^x + ax^2 - x.$$ é conhecida (1) Discuta a monotonicidade de $f(x)$ quando $a = 1$; (2) Quando $x \geq 0$, $f(x) \geq \ frac{1}{2}x^3 + 1$, encontre o intervalo de valores de $a$.

Conclusão:Todos os modelos dão a resposta correta, mas o o3-mini é melhor em termos de velocidade.

 

Além disso, realizámos outros testes com os seguintes resultados:

cenário de teste ChatGPT o3-mini Pensamento Grok3 Claude3.7 pensando Deepseek-r1 Gemini-2.0-Pro
Problemas matemáticos complexos
(Teorema de Bayes)
A explicação básica é clara, mas carece de profundidade e pormenor, e os casos são simples As explicações são vivas e são introduzidas analogias visuais intuitivas, mas falta um pouco de rigor na derivação O processo de prova mais sistemático, com explicações aprofundadas dos conceitos, casos de rastreio médico pormenorizados e cálculos claros As derivações matemáticas são as mais rigorosas e as fórmulas estão muito bem apresentadas, mas as explicações dos casos são relativamente académicas Equilibra teoria e prática, mas não é tão bom como o Claude e o Deepseek em pormenores específicos
competências de codificação
(Seleção rápida)
A funcionalidade básica é implementada corretamente, mas a eficiência do código e o tratamento dos limites são fracos Algoritmo correto, estrutura de código ligeiramente redundante, sugestões práticas de otimização O código é claro e fácil de ler, os comentários detalhados, a explicação de cada passo da ideia, a análise de complexidade é abrangente O código é o mais simplificado e eficiente, com um tratamento optimizado das condições de fronteira e uma análise aprofundada da complexidade Fornece múltiplas implementações, incluindo a triagem in situ e a programação funcional, com alguns casos-limite não bem considerados
Escrita criativa
(2050)
A história flui bem, mas é um pouco insípida, e os elementos tecnológicos futuristas favorecem o imaginário comum Bom na construção de uma grande visão do mundo, arrojado na descrição da tecnologia, ligeiramente fraco na caraterização das emoções O enredo é rico e vívido, as personagens são tridimensionais e os pormenores tecnológicos são simultaneamente inovadores e sensatos, incorporando elementos emocionais Pormenores técnicos exactos mas ligeiramente estereotipados, narrativa insuficiente A estrutura da narrativa é completa, a tecnologia e as questões sociais estão bem integradas, falta um pouco de inovação
inferência lógica
(Dilema do Prisioneiro)
Explicação exacta dos conceitos subjacentes, mas não uma análise suficientemente aprofundada A análise é mais aprofundada, introduzindo uma perspetiva evolutiva da teoria dos jogos e discutindo estratégias de equilíbrio para jogos repetidos A teoria é explicada de forma muito clara e derivada logicamente, fornecendo exemplos da vida real em várias áreas A modelação matemática é construída de forma mais rigorosa, mas os exemplos são ligeiramente académicos Equilíbrio entre teoria e aplicação prática com uma grande variedade de estudos de caso

 

Globalmente, as vantagens e desvantagens dos modelos são comparadas da seguinte forma:

modelação vanguarda inferior Cenários mais aplicáveis
ChatGPT o3-mini - Melhor desempenho em modelos leves
- tempo de resposta rápido
- Tratamento preciso de questões básicas
- Capacidade limitada de raciocínio complexo
- O pensamento profundo não é tão funcional como outros modelos
- Perguntas e respostas simples do dia a dia
- Criação de conteúdos básicos
- Cenários de aplicações ligeiras
Pensamento Grok3 - Transparência no processo de reflexão
- Excelentes capacidades de raciocínio lógico
- Explicar conceitos de uma forma viva e interessante
- Conhecimentos ligeiramente inferiores da língua chinesa
- Profundidade insuficiente em certos domínios especializados
- Raciocínio complexo que exige ver o processo de pensamento
- Estimulação do pensamento inovador
Claude3.7 pensando - A combinação mais equilibrada de competências
- Seguimento exato do comando
- A criatividade e a lógica andam de mãos dadas
- Alucinações mínimas
- Ligeiramente menos especializados em sectores verticais específicos do que os modelos especializados - Criação de conteúdos que exigem um equilíbrio entre criatividade e exatidão
- Tarefas de comando complexas
Deepseek-r1 - Competências matemáticas e de programação extremamente fortes
- Melhor compreendido em chinês
- Raciocínio académico rigoroso
- A escrita criativa é relativamente estereotipada
- As representações genéricas não são tão vivas como outros modelos
- desenvolvimento do programa
- Investigação científica em matemática
- Geração de conteúdos académicos chineses
Gemini-2.0-Pro - Conhecimentos alargados
- Forte compreensão multimodal
- Abundância de casos práticos
- Falta de profundidade em alguns cenários de raciocínio complexos - Interações multimodais que exigem a combinação de imagens
- Perguntas e respostas com grande intensidade de conhecimentos

III. comparação dos modelos básicos

Nome do modelo empresa de desenvolvimento Tempo de libertação Tamanho do modelo Cargas
ChatGPT o3-mini OpenAI julho de 2024 Cerca de 7 mil milhões de parâmetros Versões gratuitas e pagas Plus
Pensamento Grok3 xAI julho de 2024 não revelado xAI Membro
Claude3.7 pensando Antrópica agosto de 2024 não revelado Parcialmente gratuito, Claude Pro pago
Deepseek-r1 pesquisa em profundidade maio de 2024 236 mil milhões de parâmetros freeware
Gemini-2.0-Pro Google Empresa de Internet maio de 2024 não revelado Parcialmente gratuito, versão premium paga

IV. Quadro comparativo das competências essenciais

dimensão de capacidade ChatGPT o3-mini Pensamento Grok3 Claude3.7 pensando Deepseek-r1 Gemini-2.0-Pro
Perguntas e respostas gerais 4 5 5 4 4
competências de codificação 3 4 5 5 4
raciocínio matemático 3 4 4 5 4
raciocínio lógico 3 5 5 4 4
Escrita criativa 4 4 5 3 4
comando seguinte 4 4 5 4 4
Conhecimentos da língua chinesa 4 3 4 5 4
Profundidade de pensamento 3 5 5 4 4
controlo ilusionista 3 3 5 4 4

v. síntese das conclusões

Após uma série de análises, chegámos às seguintes conclusões:

  1. Melhor desempenho global: pensamento Claude 3.7, excelente na maioria dos testes, especialmente em escrita criativa, seguimento de comandos e controlo de ilusões
  2. Melhor Especialização: O Deepseek-r1 foi o melhor em código, matemática e conteúdo especializado em chinês
  3. Melhor processo de pensamento: o pensamento Grok3 e o pensamento Claude3.7 foram os mais transparentes na demonstração do processo de pensamento
  4. Melhor aplicação leve: o ChatGPT o3-mini tem a melhor relação preço/desempenho entre as aplicações leves
  5. Melhor Multimodal: Gemini-2.0-Pro é líder no tratamento de conteúdos multimodais

O modelo a escolher deve, em última análise, basear-se no seu cenário de utilização específico. Se procura uma experiência totalmente equilibrada, o Claude 3.7 é uma boa escolha; para necessidades de programação e matemática, vale a pena considerar o Deepseek-r1; e se precisa de um assistente diário leve, o ChatGPT o3-mini também pode satisfazer as necessidades básicas.

Para o ajudar a explorar o potencial dos modelos, foram preparados recursos adicionais. Para dominar as técnicas de palavras-chave de grandes modelos e interagir com os modelos de forma eficiente, clique na hiperligação:Dicas de palavras para o grande modelo Para além disso, aqui estão estratégias práticas para o ajudar a desbloquear as poderosas funcionalidades do modelo.

Se pretender utilizar a conta exclusiva paga oficial GPT Plus, Claude Pro, Grok Super, pode contactar a nossa equipa de profissionais (wx: f15303420735) se não souber como efetuar o carregamento.

Para mais produtos, consultar

Ver mais em

ShirtAI - Inteligência penetrante O Grande Modelo do AIGC: inaugurando uma era de dupla revolução na engenharia e na ciência - Penetrating Intelligence
1:1 Restauração de Claude e GPT Site oficial - AI Cloud Native Aplicação de jogos em direto Leitor de visualização de desporto HD global (recomendado) - Blueshirt Technology
Serviço de trânsito baseado na API oficial - API GPTMeta Ajuda, alguém pode dar algumas dicas sobre como fazer perguntas no GPT? - Conhecimento
Loja digital de bens virtuais globais - Global SmarTone (Feng Ling Ge) Quão poderosa é a funcionalidade Claude airtfacts que o GPT instantaneamente não cheira bem? -BeepBeep

espaço publicitário

Serviço de agente de trânsito baseado em APIs oficiais

Nesta era de abertura e partilha, o OpenAI lidera uma revolução na inteligência artificial. Agora, anunciamos ao mundo que suportámos totalmente todos os modelos da OpenAI, por exemplo, suportando GPT-4-ALL, GPT-4-multimodal, GPT-4-gizmo-*, etc., bem como uma variedade de grandes modelos desenvolvidos internamente. O mais interessante é que apresentámos ao mundo o mais poderoso e influente GPT-4o!

Navegação no sítio

fig. início
Atracagem de terceiros
consolas
Instruções de utilização
Monitorização em linha

Contactar-nos

公众号二维码

número público

企业合作二维码

Cooperação Wechat

Direitos de autor © 2021-2024 Todos os direitos reservados 2024 | GPTMeta API